标签: java nlp
This is from manual of Lingpipe doc建立语言模型。但我只是部分理解它背后的理论。
我特别不知道基本概率。
这里,如何获得基数p(d)。如果下面是令牌的一部分及其在unigram文件中的频率。
ab 20 aba 3 abd 2 abef 2 abkk 3
在这种情况下,什么是lamda(),1-lamda(),extcount,numExtentions和Base P(ab)? 这是一个问题,但它们是链接的。
非常感谢。