浏览代码

fix bug in chapter3

jjyaoao 8 月之前
父节点
当前提交
6ac3eb40bd
共有 1 个文件被更改,包括 4 次插入5 次删除
  1. 4 5
      docs/chapter3/第三章 大语言模型基础.md

+ 4 - 5
docs/chapter3/第三章 大语言模型基础.md

@@ -520,16 +520,15 @@ Decoder-Only 架构的工作模式被称为<strong>自回归 (Autoregressive)</s
 
 传统的概率分布使由 Softmax 公式计算得到的:$p_i = \frac{e^{z_i}}{\sum_{j=1}^k e^{z_j}}$,采样参数的本质就是在此基础上,根据不同策略“重新调整”或“截断”分布,从而改变大模型输出的下一个token。
 
-`Temperature`:温度是控制模型输出 “随机性” 与 “确定性” 的关键参数。其原理是引入温度系数$T&gt0$,将 Softmax 改写为
-$$p_i^{(T)} = \frac{e^{z_i / T}}{\sum_{j=1}^k e^{z_j / T}}$$
+`Temperature`:温度是控制模型输出 “随机性” 与 “确定性” 的关键参数。其原理是引入温度系数$T\gt0$,将 Softmax 改写为$p_i^{(T)} = \frac{e^{z_i / T}}{\sum_{j=1}^k e^{z_j / T}}$
 当T变小时,分布“更加陡峭”,高概率项权重进一步放大,生成更“保守”且重复率更高的文本。当T变大时,分布“更加平坦”,低概率项权重提升,生成更“多样”但可能出现不连贯的内容。
 
 
-- 低温度(0 $\leqslant$ Temperature $&lt$0.3)时输出更 “精准、确定”。适用场景: 事实性任务:如问答、数据计算、代码生成; 严谨性场景:法律条文解读、技术文档撰写、学术概念解释等场景。
+- 低温度(0 $\leqslant$ Temperature $\lt$ 0.3)时输出更 “精准、确定”。适用场景: 事实性任务:如问答、数据计算、代码生成; 严谨性场景:法律条文解读、技术文档撰写、学术概念解释等场景。
 
-- 中温度(0.3 $\leqslant$ Temperature $&lt$ 0.7):输出 “平衡、自然”。适用场景: 日常对话:如客服交互、聊天机器人; 常规创作:如邮件撰写、产品文案、简单故事创作。
+- 中温度(0.3 $\leqslant$ Temperature $\lt$ 0.7):输出 “平衡、自然”。适用场景: 日常对话:如客服交互、聊天机器人; 常规创作:如邮件撰写、产品文案、简单故事创作。
 
-- 高温度(0.7 $\leqslant$ Temperature $&lt$ 2):输出 “创新、发散”。适用场景: 创意性任务:如诗歌创作、科幻故事构思、广告 slogan brainstorm、艺术灵感启发; 发散性思考。
+- 高温度(0.7 $\leqslant$ Temperature $\lt$ 2):输出 “创新、发散”。适用场景: 创意性任务:如诗歌创作、科幻故事构思、广告 slogan brainstorm、艺术灵感启发; 发散性思考。
 
 `Top-k `:其原理是将所有 token 按概率从高到低排序,取排名前 k 个的 token 组成 “候选集”,随后对筛选出的 k 个 token 的概率进行 “归一化”: $ \hat{p}_i = \frac{p_i}{\sum_{j \in \text{候选集}} p_j}$