直观地说,你必须计算世界上所有文本中的所有n-gram来计算它们的概率。由于这是非常不现实的,MLE提供了一种通过在给定语料库中对它们进行计数来估计这些n-gram概率的方法。
例如,如果您需要单词 y 后面的单词 y 的二元组概率,则将它们的出现次数计算为一对,{{3} }。然后你必须将这个计数除以所有以 x 开头的双字母组合的总和(即: x 后跟每个可能的单词), ,因此MLE估计最终介于0和1之间。
因此,可以通过以下表达式估计该二元概率:
请注意,此表达式可以进一步简化,因为以 x 开头的所有bigram计数的总和必须加起来为 x 本身的单字组计数: