8 luni în urmă · 12886f8236
--- a/docs/chapter11/第十一章
+++ b/docs/chapter11/第十一章
@@ -2152,7 +2152,7 @@ print(f"最佳准确率: {best_accuracy:.2%}")
 
				 
			
 
				 随机搜索的优点是效率高，适合参数空间大的情况。缺点是可能错过最优解。
			
 
				 
			
 
				-**（3）贝叶斯优化<strong>
			
 
				+<strong>（3）贝叶斯优化</strong>
			
 
				 
			
 
				 贝叶斯优化(Bayesian Optimization)使用概率模型指导搜索，更加智能。可以使用Optuna等库:
			
 
				 
			
@@ -2205,13 +2205,13 @@ print(f"最佳准确率: {study.best_value:.2%}")
 
				 
			
 
				 当数据量和模型规模增大时，单GPU训练会变得非常缓慢。这时我们需要使用分布式训练来加速训练过程。HelloAgents基于TRL和Hugging Face Accelerate，天然支持多GPU和多节点分布式训练
			
 
				 
			
 
				-</strong>方案选择建议<strong>:
			
 
				+<strong>方案选择建议</strong>:
			
 
				 
			
 
				-- </strong>单机多卡(2-8卡)<strong>: 使用DDP，简单高效
			
 
				-- </strong>大模型(>7B)<strong>: 使用DeepSpeed ZeRO-2或ZeRO-3
			
 
				-- </strong>多节点集群<strong>: 使用DeepSpeed ZeRO-3 + Offload
			
 
				+- <strong>单机多卡(2-8卡)</strong>: 使用DDP，简单高效
			
 
				+- <strong>大模型(>7B)</strong>: 使用DeepSpeed ZeRO-2或ZeRO-3
			
 
				+- <strong>多节点集群</strong>: 使用DeepSpeed ZeRO-3 + Offload
			
 
				 
			
 
				-</strong>（1）配置Accelerate<strong>
			
 
				+<strong>（1）配置Accelerate</strong>
			
 
				 
			
 
				 首先需要创建Accelerate配置文件。运行以下命令:
			
 
				 
			
@@ -2246,11 +2246,11 @@ How many GPU(s) should be used for distributed training?
 
				 
			
 
				 这会在`~/.cache/huggingface/accelerate/default_config.yaml`生成配置文件。
			
 
				 
			
 
				-</strong>（2）使用DDP训练<strong>
			
 
				+<strong>（2）使用DDP训练</strong>
			
 
				 
			
 
				-</strong>数据并行(DDP)<strong>是最简单的分布式方案，每个GPU持有完整模型副本，数据被分割到各个GPU上。
			
 
				+<strong>数据并行(DDP)</strong>是最简单的分布式方案，每个GPU持有完整模型副本，数据被分割到各个GPU上。
			
 
				 
			
 
				-</strong>Accelerate配置文件<strong> (`multi_gpu_ddp.yaml`):
			
 
				+<strong>Accelerate配置文件</strong> (`multi_gpu_ddp.yaml`):
			
 
				 
			
 
				 ```yaml
			
 
				 compute_environment: LOCAL_MACHINE
			
@@ -2262,7 +2262,7 @@ gpu_ids: all
 
				 mixed_precision: fp16
			
 
				 ```
			
 
				 
			
 
				-</strong>训练脚本<strong> (无需修改):
			
 
				+<strong>训练脚本</strong> (无需修改):
			
 
				 
			
 
				 ```python
			
 
				 from hello_agents.tools import RLTrainingTool
			
@@ -2281,7 +2281,7 @@ result = rl_tool.run({
 
				 })
			
 
				 ```
			
 
				 
			
 
				-</strong>启动训练<strong>:
			
 
				+<strong>启动训练</strong>:
			
 
				 
			
 
				 ```bash
			
 
				 # 使用配置文件
			
@@ -2291,11 +2291,11 @@ accelerate launch --config_file multi_gpu_ddp.yaml train_script.py
 
				 accelerate launch --num_processes 4 --mixed_precision fp16 train_script.py
			
 
				 ```
			
 
				 
			
 
				-</strong>（3）使用DeepSpeed ZeRO训练<strong>
			
 
				+</strong>（3）使用DeepSpeed ZeRO训练</strong>
			
 
				 
			
 
				-</strong>DeepSpeed ZeRO<strong>通过分片优化器状态、梯度和模型参数，大幅降低显存占用，支持更大的模型和batch size。
			
 
				+</strong>DeepSpeed ZeRO</strong>通过分片优化器状态、梯度和模型参数，大幅降低显存占用，支持更大的模型和batch size。
			
 
				 
			
 
				-</strong>ZeRO-2配置文件<strong> (`deepspeed_zero2.yaml`):
			
 
				+</strong>ZeRO-2配置文件</strong> (`deepspeed_zero2.yaml`):
			
 
				 
			
 
				 ```yaml
			
 
				 compute_environment: LOCAL_MACHINE
			
@@ -2314,7 +2314,7 @@ deepspeed_config:
 
				   zero_stage: 2  # ZeRO-2
			
 
				 ```
			
 
				 
			
 
				-</strong>ZeRO-3配置文件<strong> (`deepspeed_zero3.yaml`):
			
 
				+</strong>ZeRO-3配置文件</strong> (`deepspeed_zero3.yaml`):
			
 
				 
			
 
				 ```yaml
			
 
				 compute_environment: LOCAL_MACHINE
			
@@ -2333,7 +2333,7 @@ deepspeed_config:
 
				   zero_stage: 3  # ZeRO-3
			
 
				 ```
			
 
				 
			
 
				-</strong>启动训练<strong>:
			
 
				+<strong>启动训练</strong>:
			
 
				 
			
 
				 ```bash
			
 
				 # ZeRO-2
			
@@ -2350,11 +2350,11 @@ accelerate launch --config_file deepspeed_zero3.yaml train_script.py
 
				   <img src="https://raw.githubusercontent.com/datawhalechina/Hello-Agents/main/docs/images/11-figures/11-table-9.png" alt="" width="85%"/>
			
 
				 </div>
			
 
				 
			
 
				-</strong>（4）多节点训练<strong>
			
 
				+<strong>（4）多节点训练</strong>
			
 
				 
			
 
				 对于超大规模训练，可以使用多个节点(机器)。
			
 
				 
			
 
				-</strong>主节点配置<strong> (`multi_node_main.yaml`):
			
 
				+<strong>主节点配置</strong> (`multi_node_main.yaml`):
			
 
				 
			
 
				 ```yaml
			
 
				 compute_environment: LOCAL_MACHINE
			
@@ -2372,14 +2372,14 @@ deepspeed_config:
 
				   offload_param_device: cpu
			
 
				 ```
			
 
				 
			
 
				-</strong>工作节点配置<strong> (修改`machine_rank`为1, 2, 3):
			
 
				+<strong>工作节点配置</strong> (修改`machine_rank`为1, 2, 3):
			
 
				 
			
 
				 ```yaml
			
 
				 machine_rank: 1  # 工作节点1
			
 
				 # 其他配置相同
			
 
				 ```
			
 
				 
			
 
				-</strong>启动训练<strong>:
			
 
				+<strong>启动训练</strong>:
			
 
				 
			
 
				 ```bash
			
 
				 # 在主节点上
			
@@ -2395,9 +2395,9 @@ accelerate launch --config_file multi_node_worker2.yaml train_script.py
 
				 accelerate launch --config_file multi_node_worker3.yaml train_script.py
			
 
				 ```
			
 
				 
			
 
				-</strong>（5）分布式训练最佳实践<strong>
			
 
				+<strong>（5）分布式训练最佳实践</strong>
			
 
				 
			
 
				-</strong>1. Batch Size调整<strong>
			
 
				+<strong>1. Batch Size调整</strong>
			
 
				 
			
 
				 分布式训练时，总batch size = `per_device_batch_size × num_gpus × gradient_accumulation_steps`
			
 
				 
			
@@ -2406,7 +2406,7 @@ accelerate launch --config_file multi_node_worker3.yaml train_script.py
 
				 # 4GPU DDP: batch_size=4, gradient_accumulation=1, 总batch=16 (保持一致)
			
 
				 ```
			
 
				 
			
 
				-</strong>2. 学习率缩放<strong>
			
 
				+<strong>2. 学习率缩放</strong>
			
 
				 
			
 
				 使用线性缩放规则: `lr_new = lr_base × sqrt(total_batch_size_new / total_batch_size_base)`
			
 
				 
			
@@ -2415,7 +2415,7 @@ accelerate launch --config_file multi_node_worker3.yaml train_script.py
 
				 # 4GPU: batch=64, lr=5e-5 × sqrt(64/16) = 1e-4
			
 
				 ```
			
 
				 
			
 
				-</strong>3. 监控和调试<strong>
			
 
				+<strong>3. 监控和调试</strong>
			
 
				 
			
 
				 ```python
			
 
				 # 启用详细日志
			
@@ -2432,7 +2432,7 @@ watch -n 1 nvidia-smi
 
				 
			
 
				 训练完成后，我们需要将模型部署到生产环境。下面是一些部署建议。
			
 
				 
			
 
				-</strong>（1）模型导出<strong>
			
 
				+<strong>（1）模型导出</strong>
			
 
				 
			
 
				 将LoRA权重合并到基础模型，方便部署:
			
 
				 
			
@@ -2459,7 +2459,7 @@ tokenizer.save_pretrained("./models/merged_model")
 
				 print("✓ 模型已导出到: ./models/merged_model")
			
 
				 ```
			
 
				 
			
 
				-</strong>（2）推理优化<strong>
			
 
				+<strong>（2）推理优化</strong>
			
 
				 
			
 
				 使用量化和优化技术加速推理:
			
 
				 
			
@@ -2482,7 +2482,7 @@ def generate_answer(question):
 
				     inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
			
 
				 
			
 
				     outputs = model.generate(
			
 
				-        </strong>inputs,
			
 
				+        **inputs,
			
 
				         max_new_tokens=512,
			
 
				         temperature=0.7,
			
 
				         do_sample=True,
			
@@ -2550,34 +2550,34 @@ def generate(question: Question):
 
				 
			
 
				 在本章中，我们系统地学习了Agentic RL的理论和实践，从基础概念到完整的训练流程，从数据准备到模型部署。让我们回顾一下本章的主要内容。
			
 
				 
			
 
				-**（1）Agentic RL的本质<strong>
			
 
				+<strong>（1）Agentic RL的本质</strong>
			
 
				 
			
 
				 Agentic RL是将LLM作为可学习策略，嵌入到智能体的感知-决策-执行循环中，通过强化学习优化智能体在多步任务中的表现。它与传统的PBRFT(Preference-Based Reinforcement Fine-Tuning)的核心区别在于:
			
 
				 
			
 
				-- </strong>任务性质<strong>:从单轮对话优化扩展到多步序贯决策
			
 
				-- </strong>状态空间<strong>:从静态提示扩展到动态演化的环境状态
			
 
				-- </strong>行动空间<strong>:从纯文本生成扩展到文本+工具+环境操作
			
 
				-- </strong>奖励设计<strong>:从单步质量评估扩展到长期累积回报
			
 
				-- </strong>优化目标<strong>:从短期响应质量扩展到长期任务成功
			
 
				+- <strong>任务性质</strong>:从单轮对话优化扩展到多步序贯决策
			
 
				+- <strong>状态空间</strong>:从静态提示扩展到动态演化的环境状态
			
 
				+- <strong>行动空间</strong>:从纯文本生成扩展到文本+工具+环境操作
			
 
				+- <strong>奖励设计</strong>:从单步质量评估扩展到长期累积回报
			
 
				+- <strong>优化目标</strong>:从短期响应质量扩展到长期任务成功
			
 
				 
			
 
				-</strong>（2）六大核心能力<strong>
			
 
				+<strong>（2）六大核心能力</strong>
			
 
				 
			
 
				 Agentic RL旨在提升智能体的六大核心能力:
			
 
				 
			
 
				-1. </strong>推理(Reasoning)<strong>:多步逻辑推导，学习推理策略
			
 
				-2. </strong>工具使用(Tool Use)<strong>:API/工具调用，学会何时用、如何用
			
 
				-3. </strong>记忆(Memory)<strong>:长期信息保持，学习记忆管理
			
 
				-4. </strong>规划(Planning)<strong>:行动序列规划，学会动态规划
			
 
				-5. </strong>自我改进(Self-Improvement)<strong>:自我反思优化，从错误中学习
			
 
				-6. </strong>感知(Perception)<strong>:多模态理解，视觉推理和工具使用
			
 
				+1. <strong>推理(Reasoning)</strong>:多步逻辑推导，学习推理策略
			
 
				+2. <strong>工具使用(Tool Use)</strong>:API/工具调用，学会何时用、如何用
			
 
				+3. <strong>记忆(Memory)</strong>:长期信息保持，学习记忆管理
			
 
				+4. <strong>规划(Planning)</strong>:行动序列规划，学会动态规划
			
 
				+5. <strong>自我改进(Self-Improvement)</strong>:自我反思优化，从错误中学习
			
 
				+6. <strong>感知(Perception)</strong>:多模态理解，视觉推理和工具使用
			
 
				 
			
 
				-</strong>（3）训练流程<strong>
			
 
				+<strong>（3）训练流程</strong>
			
 
				 
			
 
				 完整的Agentic RL训练流程包括:
			
 
				 
			
 
				-1. </strong>预训练(Pretraining)<strong>:在大规模文本上学习语言知识(通常使用现成的预训练模型)
			
 
				-2. </strong>监督微调(SFT)<strong>:学习任务格式和基础推理能力
			
 
				-3. </strong>强化学习(RL)<strong>:通过试错优化推理策略，超越训练数据质量
			
 
				+1. <strong>预训练(Pretraining)</strong>:在大规模文本上学习语言知识(通常使用现成的预训练模型)
			
 
				+2. <strong>监督微调(SFT)</strong>:学习任务格式和基础推理能力
			
 
				+3. <strong>强化学习(RL)</strong>:通过试错优化推理策略，超越训练数据质量
			
 
				 
			
 
				 其中，SFT是基础，RL是提升。没有SFT的基础，RL很难成功;没有RL的优化，模型只能模仿训练数据。
			
 
				 
			
@@ -2585,23 +2585,23 @@ Agentic RL旨在提升智能体的六大核心能力:
 
				 
			
 
				 基础阶段
			
 
				 
			
 
				-1. </strong>强化学习基础<strong>:学习MDP、策略梯度、PPO等基本概念
			
 
				-2. </strong>LLM基础<strong>:了解Transformer、预训练、微调等技术
			
 
				-3. </strong>实践HelloAgents<strong>:运行本章的示例代码，理解完整流程
			
 
				+1. <strong>强化学习基础</strong>:学习MDP、策略梯度、PPO等基本概念
			
 
				+2. <strong>LLM基础</strong>:了解Transformer、预训练、微调等技术
			
 
				+3. <strong>实践HelloAgents</strong>:运行本章的示例代码，理解完整流程
			
 
				 
			
 
				 进阶阶段
			
 
				 
			
 
				-1. </strong>深入TRL<strong>:学习TRL库的实现，理解SFT和GRPO等算法的细节
			
 
				-2. </strong>自定义数据集<strong>:使用自己的数据集训练模型
			
 
				-3. </strong>自定义奖励函数<strong>:设计适合自己任务的奖励函数
			
 
				-4. </strong>参数调优<strong>:系统地调优超参数，提升模型性能
			
 
				+1. <strong>深入TRL</strong>:学习TRL库的实现，理解SFT和GRPO等算法的细节
			
 
				+2. <strong>自定义数据集</strong>:使用自己的数据集训练模型
			
 
				+3. <strong>自定义奖励函数</strong>:设计适合自己任务的奖励函数
			
 
				+4. <strong>参数调优</strong>:系统地调优超参数，提升模型性能
			
 
				 
			
 
				 高级阶段
			
 
				 
			
 
				-1. </strong>多步推理<strong>:研究长序列推理任务
			
 
				-2. </strong>工具学习<strong>:让智能体学会使用工具
			
 
				-3. </strong>多智能体<strong>:研究多智能体协作
			
 
				-4. </strong>前沿论文**:阅读最新的研究论文，跟进前沿进展
			
 
				+1. <strong>多步推理</strong>:研究长序列推理任务
			
 
				+2. <strong>工具学习</strong>:让智能体学会使用工具
			
 
				+3. <strong>多智能体</strong>:研究多智能体协作
			
 
				+4. <strong>前沿论文</strong>:阅读最新的研究论文，跟进前沿进展