8 miesięcy temu · d7ab9e6f38
--- a/docs/chapter3/第三章大语言模型基础.md
+++ b/docs/chapter3/第三章大语言模型基础.md
@@ -284,7 +284,7 @@ class DecoderLayer(nn.Module):
 
				         return x
			
 
				 ```
			
 
				 
			
 
				-<strong>3.1.2.2 从自注意力到多头注意力</strong>
			
 
				+<strong>（2）从自注意力到多头注意力</strong>
			
 
				 
			
 
				 现在，我们来填充骨架中最关键的模块，注意力机制。
			
 
				 
			
@@ -380,7 +380,7 @@ class MultiHeadAttention(nn.Module):
 
				         return output
			
 
				 ```
			
 
				 
			
 
				-<strong>3.1.2.3 前馈神经网络</strong>
			
 
				+<strong>（3）前馈神经网络</strong>
			
 
				 
			
 
				 在每个 Encoder 和 Decoder 层中，多头注意力子层之后都跟着一个<strong>逐位置前馈网络(Position-wise Feed-Forward Network, FFN)</strong> 。如果说注意力层的作用是从整个序列中“动态地聚合”相关信息，那么前馈网络的作用从这些聚合后的信息中提取更高阶的特征。
			
 
				 
			
@@ -414,7 +414,7 @@ class PositionWiseFeedForward(nn.Module):
 
				         return x
			
 
				 ```
			
 
				 
			
 
				-<strong>3.1.2.4 残差连接与层归一化</strong>
			
 
				+<strong>（4）残差连接与层归一化</strong>
			
 
				 
			
 
				 在 Transformer 的每个编码器和解码器层中，所有子模块（如多头注意力和前馈网络）都被一个 `Add & Norm` 操作包裹。这个组合是为了保证 Transformer 能够稳定训练。
			
 
				 
			
@@ -473,7 +473,7 @@ class PositionalEncoding(nn.Module):
 
				 
			
 
				 本小节主要是为了帮助理解 Transformer 的宏观结构和内部每个模块的运作细节。由于是为了补充智能体学习中大模型的知识体系，也就不再继续往下深入实现。至此，我们已经为理解现代大语言模型打下了坚实的架构基础。在下一节中，我们将探讨 Decoder-Only 架构，看看它是如何基于 Transformer 的思想演变而来。
			
 
				 
			
 
				-### 3.1.4 Decoder-Only 架构
			
 
				+### 3.1.3 Decoder-Only 架构
			
 
				 
			
 
				 前面一节中，我们动手构建了一个完整的Transformer 模型，它能在很多端到端的场景表现出色。但是当任务转换为构建一个与人对话、创作、作为智能体大脑的通用模型时，或许我们并不需要那么复杂的结构。
			
 
				 
			
@@ -514,14 +514,14 @@ Decoder-Only 架构的工作模式被称为<strong>自回归 (Autoregressive)</s
 
				 如果我们把大语言模型比作一个能力极强的“大脑”，那么<strong>提示 (Prompt)</strong> 就是我们与这个“大脑”沟通的语言。提示工程，就是研究如何设计出精准的提示，从而引导模型产生我们期望输出的回复。对于构建智能体而言，一个精心设计的提示能让智能体之间协作分工变得高效。
			
 
				 
			
 
				 
			
 
				-<strong>3.2.1.1 模型采样参数</strong>
			
 
				+<strong>（1）模型采样参数</strong>
			
 
				 
			
 
				 在使用大模型时，你会经常看到类似`Temperature`这类的可配置参数，其本质是通过调整模型对 “概率分布” 的采样策略，让输出匹配具体场景需求，配置合适的参数可以提升Agent在特定场景的性能。
			
 
				 
			
 
				 传统的概率分布使由 Softmax 公式计算得到的：$p_i = \frac{e^{z_i}}{\sum_{j=1}^k e^{z_j}}$，采样参数的本质就是在此基础上，根据不同策略“重新调整”或“截断”分布，从而改变大模型输出的下一个token。
			
 
				 
			
 
				 `Temperature`：温度是控制模型输出 “随机性” 与 “确定性” 的关键参数。其原理是引入温度系数$T&gt0$,将 Softmax 改写为
			
 
				-$p_i^{(T)} = \frac{e^{z_i / T}}{\sum_{j=1}^k e^{z_j / T}}$。
			
 
				+$$p_i^{(T)} = \frac{e^{z_i / T}}{\sum_{j=1}^k e^{z_j / T}}$$
			
 
				 当T变小时，分布“更加陡峭”，高概率项权重进一步放大，生成更“保守”且重复率更高的文本。当T变大时，分布“更加平坦”，低概率项权重提升，生成更“多样”但可能出现不连贯的内容。
			
 
				 
			
 
				 
			
@@ -531,11 +531,11 @@ $p_i^{(T)} = \frac{e^{z_i / T}}{\sum_{j=1}^k e^{z_j / T}}$。
 
				 
			
 
				 - 高温度（0.7 $\leqslant$ Temperature $&lt$ 2）：输出 “创新、发散”。适用场景： 创意性任务：如诗歌创作、科幻故事构思、广告 slogan brainstorm、艺术灵感启发； 发散性思考。
			
 
				 
			
 
				-`Top-k `：其原理是将所有 token 按概率从高到低排序，取排名前 k 个的 token 组成 “候选集”，随后对筛选出的 k 个 token 的概率进行 “归一化”:$ \hat{p}_i = \frac{p_i}{\sum_{j \in \text{候选集}} p_j}$
			
 
				+`Top-k `：其原理是将所有 token 按概率从高到低排序，取排名前 k 个的 token 组成 “候选集”，随后对筛选出的 k 个 token 的概率进行 “归一化”: $ \hat{p}_i = \frac{p_i}{\sum_{j \in \text{候选集}} p_j}$
			
 
				 
			
 
				 - 与温度采样的区别与联系：温度采样通过温度 T 调整所有 token 的概率分布（平滑或陡峭），不改变候选 token 的数量（仍考虑全部 N 个）。Top-k 采样通过 k 值限制候选 token 的数量（只保留前 k 个高概率 token），再从其中采样。当k=1时输出完全确定，退化为 “贪心采样”。
			
 
				 
			
 
				-`Top-p `：其原理是将所有 token 按概率从高到低排序，从排序后的第一个 token 开始，逐步累加概率，直到累积和首次达到或超过阈值 p:$\sum_{i \in S} p_{(i)} \geq p$，此时累加过程中包含的所有 token 组成 “核集合”，最后对核集合进行归一化。
			
 
				+`Top-p `：其原理是将所有 token 按概率从高到低排序，从排序后的第一个 token 开始，逐步累加概率，直到累积和首次达到或超过阈值 p: $\sum_{i \in S} p_{(i)} \geq p$，此时累加过程中包含的所有 token 组成 “核集合”，最后对核集合进行归一化。
			
 
				 
			
 
				 - 与Top-k的区别与联系：相对于固定截断大小的 Top-k，Top-p 能动态适应不同分布的“长尾”特性，对概率分布不均匀的极端情况的适应性更好。
			
 
				 
			
@@ -545,7 +545,7 @@ $p_i^{(T)} = \frac{e^{z_i / T}}{\sum_{j=1}^k e^{z_j / T}}$。
 
				 
			
 
				 
			
 
				 
			
 
				-<strong>3.2.1.2 零样本、单样本与少样本提示</strong>
			
 
				+<strong>（2）零样本、单样本与少样本提示</strong>
			
 
				 
			
 
				 根据我们给模型提供示例（Exemplar）的数量，提示可以分为三种类型。为了更好地理解它们，让我们以一个情感分类任务为例，目标是让模型判断一段文本的情感色彩（如正面、负面或中性）。
			
 
				 
			
@@ -591,7 +591,7 @@ $p_i^{(T)} = \frac{e^{z_i / T}}{\sum_{j=1}^k e^{z_j / T}}$。
 
				 
			
 
				 模型会综合所有示例，更准确地将最后一句的情感分类为“正面”。
			
 
				 
			
 
				-<strong>3.2.1.3 指令调优的影响</strong>
			
 
				+<strong>（3）指令调优的影响</strong>
			
 
				 
			
 
				 早期的 GPT 模型（如 GPT-3）主要是“文本补全”模型，它们擅长根据前面的文本续写，但不一定能很好地理解并执行人类的指令。
			
 
				 
			
@@ -616,7 +616,7 @@ How are you?
 
				 
			
 
				 指令调优的出现，极大地简化了我们与模型交互的方式，使得直接、清晰的自然语言指令成为可能。
			
 
				 
			
 
				-<strong>3.2.1.4 基础提示技巧</strong>
			
 
				+<strong>（4）基础提示技巧</strong>
			
 
				 
			
 
				 <strong>角色扮演 (Role-playing)</strong> 通过赋予模型一个特定的角色，我们可以引导它的回答风格、语气和知识范围，使其输出更符合特定场景的需求。
			
 
				 
			
@@ -638,7 +638,7 @@ How are you?
 
				 输出：
			
 
				 ```
			
 
				 
			
 
				-<strong>3.2.1.5 思维链</strong>
			
 
				+<strong>（5）思维链</strong>
			
 
				 
			
 
				 对于需要逻辑推理、计算或多步骤思考的复杂问题，直接让模型给出答案往往容易出错。<strong>思维链 (Chain-of-Thought, CoT)</strong> 是一种强大的提示技巧，它通过引导模型“一步一步地思考”，提升了模型在复杂任务上的推理能力。