9 luni în urmă · bc4430ab4b
--- a/docs/chapter3/第三章大模型基础.md
+++ b/docs/chapter3/第三章大模型基础.md
@@ -33,7 +33,7 @@ $$P(w_i∣w_1,…,w_{i−1})≈P(w_i∣w_{i−2},w_{i−1})$$
 
															 这些概率可以通过在大型语料库中进行<strong>最大似然估计(Maximum Likelihood Estimation,MLE)</strong> 来计算。这个术语听起来很复杂，但其思想非常直观：最可能出现的，就是我们在数据中看到次数最多的。例如，对于 Bigram 模型，我们想计算在词 $w_{i−1}$ 出现后，下一个词是 $w_i$ 的概率 $P(w_i∣w_{i−1})$。根据最大似然估计，这个概率可以通过简单的计数来估算：
														
 
															-$$P(w_i∣w_{i−1})=Count(w_{i−1})Count(w_{i−1},w_i)$$
														
 
															+$$P(w_i∣w_{i−1})=\frac{Count(w_{i−1},w_i)}{Count(w_{i−1})}$$
														
 
															 这里的 `Count()` 函数就代表“计数”：