فهرست منبع

Update Extra01-参考答案.md

sadcoldpig 5 ماه پیش
والد
کامیت
abf6ae4d72
1فایلهای تغییر یافته به همراه1 افزوده شده و 1 حذف شده
  1. 1 1
      Extra-Chapter/Extra01-参考答案.md

+ 1 - 1
Extra-Chapter/Extra01-参考答案.md

@@ -212,7 +212,7 @@
     <strong>揭示了什么关系?</strong>
     1.  <strong>性能的可预测性:</strong> Scaling Laws表明,模型的性能损失会随着N、D、C的增加而平滑地、可预测地下降。这种关系可以用一个幂律公式来描述,例如,当数据和计算量足够时,模型损失 L 与模型参数量 N 的关系大致为: $L(N) \propto N^{-\alpha}$ ,其中 $\alpha$ 是一个小的正指数。这意味着我们可以通过在小规模模型上的实验结果,来外推(predict)更大规模模型可能达到的性能。
     2.  <strong>瓶颈效应:</strong> 模型的最终性能会被N、D、C中最受限的那个因素所制约。如果仅仅增加模型大小而不增加数据量,性能提升会很快达到瓶颈;反之亦然。为了有效提升模型性能,必须协同扩展这三个要素。
-    3.  <strong>资源的最优分配:</strong> 对于一个给定的计算预算(FLOPs),存在一个最优的模型大小(N)和数据量(D)的组合。DeepMind的Chinchilla论文是一个里程碑式的发现,它修正了早期认为应该优先扩大模型规模的观点,指出<strong>为了达到计算最优,模型参数量和训练数据量应该近似1:1的比例进行扩展</strong>。例如,训练一个70B参数的模型,大约需要1.4万亿个token的数据。
+    3.  <strong>资源的最优分配:</strong> 对于一个给定的计算预算(FLOPs),存在一个最优的模型大小(N)和数据量(D)的组合。DeepMind的Chinchilla论文是一个里程碑式的发现,它修正了早期认为应该优先扩大模型规模的观点,指出<strong>为了达到计算最优,模型参数量和训练数据量应该近似1:20的比例进行扩展</strong>。例如,训练一个70B参数的模型,大约需要1.4万亿个token的数据。
 
     <strong>对LLM研发的指导意义:</strong>
     1.  <strong>科学指导项目规划:</strong> 在投入数百万甚至数千万美元进行一次大规模训练之前,研究机构可以先通过小规模实验拟合出自己数据集和模型架构下的Scaling Law。这使得他们能够科学地预测最终模型的性能,评估项目的投资回报率,并合理申请计算资源。