Przeglądaj źródła

docs: Correct the format

LuoPengcheng 8 miesięcy temu
rodzic
commit
d7ab9e6f38
1 zmienionych plików z 12 dodań i 12 usunięć
  1. 12 12
      docs/chapter3/第三章 大语言模型基础.md

+ 12 - 12
docs/chapter3/第三章 大语言模型基础.md

@@ -284,7 +284,7 @@ class DecoderLayer(nn.Module):
         return x
 ```
 
-<strong>3.1.2.2 从自注意力到多头注意力</strong>
+<strong>(2)从自注意力到多头注意力</strong>
 
 现在,我们来填充骨架中最关键的模块,注意力机制。
 
@@ -380,7 +380,7 @@ class MultiHeadAttention(nn.Module):
         return output
 ```
 
-<strong>3.1.2.3 前馈神经网络</strong>
+<strong>(3)前馈神经网络</strong>
 
 在每个 Encoder 和 Decoder 层中,多头注意力子层之后都跟着一个<strong>逐位置前馈网络(Position-wise Feed-Forward Network, FFN)</strong> 。如果说注意力层的作用是从整个序列中“动态地聚合”相关信息,那么前馈网络的作用从这些聚合后的信息中提取更高阶的特征。
 
@@ -414,7 +414,7 @@ class PositionWiseFeedForward(nn.Module):
         return x
 ```
 
-<strong>3.1.2.4 残差连接与层归一化</strong>
+<strong>(4)残差连接与层归一化</strong>
 
 在 Transformer 的每个编码器和解码器层中,所有子模块(如多头注意力和前馈网络)都被一个 `Add & Norm` 操作包裹。这个组合是为了保证 Transformer 能够稳定训练。
 
@@ -473,7 +473,7 @@ class PositionalEncoding(nn.Module):
 
 本小节主要是为了帮助理解 Transformer 的宏观结构和内部每个模块的运作细节。由于是为了补充智能体学习中大模型的知识体系,也就不再继续往下深入实现。至此,我们已经为理解现代大语言模型打下了坚实的架构基础。在下一节中,我们将探讨 Decoder-Only 架构,看看它是如何基于 Transformer 的思想演变而来。
 
-### 3.1.4 Decoder-Only 架构
+### 3.1.3 Decoder-Only 架构
 
 前面一节中,我们动手构建了一个完整的Transformer 模型,它能在很多端到端的场景表现出色。但是当任务转换为构建一个与人对话、创作、作为智能体大脑的通用模型时,或许我们并不需要那么复杂的结构。
 
@@ -514,14 +514,14 @@ Decoder-Only 架构的工作模式被称为<strong>自回归 (Autoregressive)</s
 如果我们把大语言模型比作一个能力极强的“大脑”,那么<strong>提示 (Prompt)</strong> 就是我们与这个“大脑”沟通的语言。提示工程,就是研究如何设计出精准的提示,从而引导模型产生我们期望输出的回复。对于构建智能体而言,一个精心设计的提示能让智能体之间协作分工变得高效。
 
 
-<strong>3.2.1.1 模型采样参数</strong>
+<strong>(1)模型采样参数</strong>
 
 在使用大模型时,你会经常看到类似`Temperature`这类的可配置参数,其本质是通过调整模型对 “概率分布” 的采样策略,让输出匹配具体场景需求,配置合适的参数可以提升Agent在特定场景的性能。
 
 传统的概率分布使由 Softmax 公式计算得到的:$p_i = \frac{e^{z_i}}{\sum_{j=1}^k e^{z_j}}$,采样参数的本质就是在此基础上,根据不同策略“重新调整”或“截断”分布,从而改变大模型输出的下一个token。
 
 `Temperature`:温度是控制模型输出 “随机性” 与 “确定性” 的关键参数。其原理是引入温度系数$T&gt0$,将 Softmax 改写为
-$p_i^{(T)} = \frac{e^{z_i / T}}{\sum_{j=1}^k e^{z_j / T}}$
+$$p_i^{(T)} = \frac{e^{z_i / T}}{\sum_{j=1}^k e^{z_j / T}}$$
 当T变小时,分布“更加陡峭”,高概率项权重进一步放大,生成更“保守”且重复率更高的文本。当T变大时,分布“更加平坦”,低概率项权重提升,生成更“多样”但可能出现不连贯的内容。
 
 
@@ -531,11 +531,11 @@ $p_i^{(T)} = \frac{e^{z_i / T}}{\sum_{j=1}^k e^{z_j / T}}$。
 
 - 高温度(0.7 $\leqslant$ Temperature $&lt$ 2):输出 “创新、发散”。适用场景: 创意性任务:如诗歌创作、科幻故事构思、广告 slogan brainstorm、艺术灵感启发; 发散性思考。
 
-`Top-k `:其原理是将所有 token 按概率从高到低排序,取排名前 k 个的 token 组成 “候选集”,随后对筛选出的 k 个 token 的概率进行 “归一化”:$ \hat{p}_i = \frac{p_i}{\sum_{j \in \text{候选集}} p_j}$
+`Top-k `:其原理是将所有 token 按概率从高到低排序,取排名前 k 个的 token 组成 “候选集”,随后对筛选出的 k 个 token 的概率进行 “归一化”: $ \hat{p}_i = \frac{p_i}{\sum_{j \in \text{候选集}} p_j}$
 
 - 与温度采样的区别与联系:温度采样通过温度 T 调整所有 token 的概率分布(平滑或陡峭),不改变候选 token 的数量(仍考虑全部 N 个)。Top-k 采样通过 k 值限制候选 token 的数量(只保留前 k 个高概率 token),再从其中采样。当k=1时输出完全确定,退化为 “贪心采样”。
 
-`Top-p `:其原理是将所有 token 按概率从高到低排序,从排序后的第一个 token 开始,逐步累加概率,直到累积和首次达到或超过阈值 p:$\sum_{i \in S} p_{(i)} \geq p$,此时累加过程中包含的所有 token 组成 “核集合”,最后对核集合进行归一化。
+`Top-p `:其原理是将所有 token 按概率从高到低排序,从排序后的第一个 token 开始,逐步累加概率,直到累积和首次达到或超过阈值 p: $\sum_{i \in S} p_{(i)} \geq p$,此时累加过程中包含的所有 token 组成 “核集合”,最后对核集合进行归一化。
 
 - 与Top-k的区别与联系:相对于固定截断大小的 Top-k,Top-p 能动态适应不同分布的“长尾”特性,对概率分布不均匀的极端情况的适应性更好。
 
@@ -545,7 +545,7 @@ $p_i^{(T)} = \frac{e^{z_i / T}}{\sum_{j=1}^k e^{z_j / T}}$。
 
 
 
-<strong>3.2.1.2 零样本、单样本与少样本提示</strong>
+<strong>(2)零样本、单样本与少样本提示</strong>
 
 根据我们给模型提供示例(Exemplar)的数量,提示可以分为三种类型。为了更好地理解它们,让我们以一个情感分类任务为例,目标是让模型判断一段文本的情感色彩(如正面、负面或中性)。
 
@@ -591,7 +591,7 @@ $p_i^{(T)} = \frac{e^{z_i / T}}{\sum_{j=1}^k e^{z_j / T}}$。
 
 模型会综合所有示例,更准确地将最后一句的情感分类为“正面”。
 
-<strong>3.2.1.3 指令调优的影响</strong>
+<strong>(3)指令调优的影响</strong>
 
 早期的 GPT 模型(如 GPT-3)主要是“文本补全”模型,它们擅长根据前面的文本续写,但不一定能很好地理解并执行人类的指令。
 
@@ -616,7 +616,7 @@ How are you?
 
 指令调优的出现,极大地简化了我们与模型交互的方式,使得直接、清晰的自然语言指令成为可能。
 
-<strong>3.2.1.4 基础提示技巧</strong>
+<strong>(4)基础提示技巧</strong>
 
 <strong>角色扮演 (Role-playing)</strong> 通过赋予模型一个特定的角色,我们可以引导它的回答风格、语气和知识范围,使其输出更符合特定场景的需求。
 
@@ -638,7 +638,7 @@ How are you?
 输出:
 ```
 
-<strong>3.2.1.5 思维链</strong>
+<strong>(5)思维链</strong>
 
 对于需要逻辑推理、计算或多步骤思考的复杂问题,直接让模型给出答案往往容易出错。<strong>思维链 (Chain-of-Thought, CoT)</strong> 是一种强大的提示技巧,它通过引导模型“一步一步地思考”,提升了模型在复杂任务上的推理能力。