Browse Source

fix bug of chapter 3

jjyaoao 9 months ago
parent
commit
8fec5a9f44
1 changed files with 3 additions and 3 deletions
  1. 3 3
      docs/chapter3/第三章 大模型基础.md

+ 3 - 3
docs/chapter3/第三章 大模型基础.md

@@ -8,7 +8,7 @@
 
 **语言模型 (Language Model, LM)** 是自然语言处理的核心,其根本任务是计算一个词序列(即一个句子)出现的概率。一个好的语言模型能够告诉我们什么样的句子是通顺的、自然的。在多智能体系统中,语言模型是智能体理解人类指令、生成回应的基础。本节将回顾从经典的统计方法到现代深度学习模型的演进历程,为理解后续的 Transformer 架构打下坚实的基础。
 
-**(1)统计语言模型与** **N-gram** **的思想**
+**(1)统计语言模型与N-gram的思想**
 
 在深度学习兴起之前,统计方法是语言模型的主流。其核心思想是,一个句子出现的概率,等于该句子中每个词出现的条件概率的连乘。对于一个由词 $w_1,w_2,dots,w_m$ 构成的句子 S,其概率 P(S) 可以表示为:
 
@@ -21,7 +21,7 @@ $$P(S)=P(w_1,w_2,…,w_m)=P(w_1)⋅P(w_2∣w_1)⋅P(w_3∣w_1,w_2)⋯P(w_m∣w_1
   <p>图 3.1 马尔可夫假设示意图</p>
 </div>
 
-为了解决这个问题,研究者引入了**马尔可夫假设 (Markov Assumption)**。其核心思想是:我们不必回溯一个词的全部历史,可以近似地认为,一个词的出现概率只与它前面有限的 $n−1$ 个词有关,如图3.1所示。基于这个假设建立的语言模型,我们称之为 **N-gram** **模型**。这里的 "N" 代表我们考虑的上下文窗口大小。让我们来看几个最常见的例子来理解这个概念:
+为了解决这个问题,研究者引入了**马尔可夫假设 (Markov Assumption)**。其核心思想是:我们不必回溯一个词的全部历史,可以近似地认为,一个词的出现概率只与它前面有限的 $n−1$ 个词有关,如图3.1所示。基于这个假设建立的语言模型,我们称之为 **N-gram模型**。这里的 "N" 代表我们考虑的上下文窗口大小。让我们来看几个最常见的例子来理解这个概念:
 
 - **Bigram (当 N=2 时)**:这是最简单的情况,我们假设一个词的出现只与它前面的一个词有关。因此,链式法则中复杂的条件概率 $P(w_i∣w_1,dots,w_{i−1})$ 就可以被近似为更容易计算的形式:
 
@@ -31,7 +31,7 @@ $$P(w_{i}∣w_{1},…,w_{i−1})≈P(w_{i}∣w_{i−1})$$
 
 $$P(w_i∣w_1,…,w_{i−1})≈P(w_i∣w_{i−2},w_{i−1})$$
 
-这些概率可以通过在大型语料库中进行**最大似然估计** **(****Maximum Likelihood Estimation****,** **MLE****)** 来计算。这个术语听起来很复杂,但其思想非常直观:最可能出现的,就是我们在数据中看到次数最多的。例如,对于 Bigram 模型,我们想计算在词 $w_{i−1}$ 出现后,下一个词是 $w_i$ 的概率 $P(w_i∣w_{i−1})$。根据最大似然估计,这个概率可以通过简单的计数来估算:
+这些概率可以通过在大型语料库中进行**最大似然估计(Maximum Likelihood Estimation,MLE)** 来计算。这个术语听起来很复杂,但其思想非常直观:最可能出现的,就是我们在数据中看到次数最多的。例如,对于 Bigram 模型,我们想计算在词 $w_{i−1}$ 出现后,下一个词是 $w_i$ 的概率 $P(w_i∣w_{i−1})$。根据最大似然估计,这个概率可以通过简单的计数来估算:
 
 $$P(w_i∣w_{i−1})=Count(w_{i−1})Count(w_{i−1},w_i)$$