用于生成具有平滑的n-gram语言模型的包? (NLTK的替代品)

时间:2011-07-13 23:09:55

标签: nlp nltk n-gram

我想找到一些类型的包或模块(最好是Python或Perl,但其他人会这样做)从输入文本自动生成n-gram概率,并且还可以自动应用一个或多个平滑算法。

也就是说,我正在寻找类似NLTK NgramModel类的东西。我不能将它用于我的目的,因为平滑函数存在一些错误,当你要求它之前没有见过的单词的可能性时,它会使它窒息。

我已经阅读了针对NLTK的开发论坛,截至目前,似乎没有任何进展。

那里有其他选择吗?

3 个答案:

答案 0 :(得分:4)

看起来我回答了自己的问题,所以我会提到我在这里找到的内容以防其他人在寻找它。

我找到了两个工具包:

它们似乎具有非常相似的功能。两者都包含各种平滑功能。

答案 1 :(得分:0)

NLTK还提供了一个ngram模型包,它具有平滑,退避等功能。

答案 2 :(得分:-2)

我想另一个答案是,如果该数据适合您的应用程序,请下载datasets Google provides,或者使用他们的online viewer