소스 검색

fix chapter11

jjyaoao 8 달 전
부모
커밋
b189971932
1개의 변경된 파일1개의 추가작업 그리고 1개의 파일을 삭제
  1. 1 1
      docs/chapter11/第十一章 Agentic-RL.md

+ 1 - 1
docs/chapter11/第十一章 Agentic-RL.md

@@ -39,7 +39,7 @@ duck egg. How much in dollars does she make every day at the farmers' market?
   <img src="https://raw.githubusercontent.com/datawhalechina/Hello-Agents/main/docs/images/11-figures/11-1.png" alt="" width="85%"/>
   <p>图 11.1 LLM训练全景图</p>
 </div>
-<strong>预训练阶段</strong>是LLM训练的第一阶段,目标是让模型学习语言的基本规律和世界知识。这个阶段使用海量的文本数据(通常是数TB级别),通过自监督学习的方式训练模型。最常见的预训练任务是因果语言建模(Causal Language Modeling),也称为下一个词预测(Next Token Prediction)。给定一个文本序列 $x_1, x_2, ..., x_t$,模型需要预测下一个词 $x_{t+1}$:
+<strong>预训练阶段</strong>是LLM训练的第一阶段,目标是让模型学习语言的基本规律和世界知识。这个阶段使用海量的文本数据(通常是数TB级别),通过自监督学习的方式训练模型。最常见的预训练任务是因果语言建模(Causal Language Modeling),也称为下一个词预测(Next Token Prediction)。给定一个文本序列 $x_1, x_2, ..., x_t$ ,模型需要预测下一个词 $x_{t+1}$ :
 
 $$
 \mathcal{L}_{\text{pretrain}} = -\sum_{t=1}^{T} \log P(x_t | x_1, x_2, ..., x_{t-1}; \theta)