|
@@ -33,7 +33,7 @@ $$P(w_i∣w_1,…,w_{i−1})≈P(w_i∣w_{i−2},w_{i−1})$$
|
|
|
这些概率可以通过在大型语料库中进行<strong>最大似然估计(Maximum Likelihood Estimation,MLE)</strong> 来计算。这个术语听起来很复杂,但其思想非常直观:最可能出现的,就是我们在数据中看到次数最多的。例如,对于 Bigram 模型,我们想计算在词 $w_{i−1}$ 出现后,下一个词是 $w_i$ 的概率 $P(w_i∣w_{i−1})$。根据最大似然估计,这个概率可以通过简单的计数来估算:
|
|
这些概率可以通过在大型语料库中进行<strong>最大似然估计(Maximum Likelihood Estimation,MLE)</strong> 来计算。这个术语听起来很复杂,但其思想非常直观:最可能出现的,就是我们在数据中看到次数最多的。例如,对于 Bigram 模型,我们想计算在词 $w_{i−1}$ 出现后,下一个词是 $w_i$ 的概率 $P(w_i∣w_{i−1})$。根据最大似然估计,这个概率可以通过简单的计数来估算:
|