5 ماه پیش · abf6ae4d72
--- a/Extra-Chapter/Extra01-参考答案.md
+++ b/Extra-Chapter/Extra01-参考答案.md
@@ -212,7 +212,7 @@
 
				     <strong>揭示了什么关系？</strong>
			
 
				     1.  <strong>性能的可预测性：</strong> Scaling Laws表明，模型的性能损失会随着N、D、C的增加而平滑地、可预测地下降。这种关系可以用一个幂律公式来描述，例如，当数据和计算量足够时，模型损失 L 与模型参数量 N 的关系大致为： $L(N) \propto N^{-\alpha}$ ，其中 $\alpha$ 是一个小的正指数。这意味着我们可以通过在小规模模型上的实验结果，来外推（predict）更大规模模型可能达到的性能。
			
 
				     2.  <strong>瓶颈效应：</strong> 模型的最终性能会被N、D、C中最受限的那个因素所制约。如果仅仅增加模型大小而不增加数据量，性能提升会很快达到瓶颈；反之亦然。为了有效提升模型性能，必须协同扩展这三个要素。
			
 
				-    3.  <strong>资源的最优分配：</strong> 对于一个给定的计算预算（FLOPs），存在一个最优的模型大小（N）和数据量（D）的组合。DeepMind的Chinchilla论文是一个里程碑式的发现，它修正了早期认为应该优先扩大模型规模的观点，指出<strong>为了达到计算最优，模型参数量和训练数据量应该近似1:1的比例进行扩展</strong>。例如，训练一个70B参数的模型，大约需要1.4万亿个token的数据。
			
 
				+    3.  <strong>资源的最优分配：</strong> 对于一个给定的计算预算（FLOPs），存在一个最优的模型大小（N）和数据量（D）的组合。DeepMind的Chinchilla论文是一个里程碑式的发现，它修正了早期认为应该优先扩大模型规模的观点，指出<strong>为了达到计算最优，模型参数量和训练数据量应该近似1:20的比例进行扩展</strong>。例如，训练一个70B参数的模型，大约需要1.4万亿个token的数据。
			
 
				 
			
 
				     <strong>对LLM研发的指导意义：</strong>
			
 
				     1.  <strong>科学指导项目规划：</strong> 在投入数百万甚至数千万美元进行一次大规模训练之前，研究机构可以先通过小规模实验拟合出自己数据集和模型架构下的Scaling Law。这使得他们能够科学地预测最终模型的性能，评估项目的投资回报率，并合理申请计算资源。