应用错误收集

时间：2016-03-28 18:50:46

标签： statistics nlp probability n-gram

我目前正致力于katz backoff平滑语言模型的实现。我对递归退避和α计算低阶模型有一些困惑。假设trigram的katz模型为

P _katz（w _i | w _i-2 w _i-1）= P（w _i | w _i-2 w _i-1），如果C（w _i-2 w _i-1 w _i）＆gt; 0如果C（w _i-2 w _i-1 w _i）= 0和C（w _i-1 w _i ）＆gt; 0
或α₂ P（w _i），否则

我也知道bigram案例的α1是根据从trigram模型中找到的折扣计算的，但我的困惑是如何计算低阶unigram的α2。它是否使用来自trigram模型的折扣，或者如果trigram和bigram案例都没有证据，它会使用bigram模型的折扣吗？

答案 0 :(得分：0)

基本上，alpha基于“丢失概率质量”。 Alpha是为了确保包括退避在内的ngram模型的概率之和等于1。

因此，对于您的问题，如果您在bigram中有折扣，则可能会丢失一些概率。我认为您需要使用1-三元组概率之和-alpha *二元组概率之和才能找到下一个字母组的alpha。