使用Lingpipe进行单词级语言模型

时间:2011-11-07 00:49:12

标签: java nlp classification document-classification

我一直在尝试使用word级语言模型来处理lingpipe。我遇到的所有示例和教程都显示了character-n-gram模型。如何使用lingpipe训练单词级模型,然后使用该模型在其他文档上进行测试?

此外,我注意到TokenizedLM不可序列化。我是不是可以保存它并在以后加载它而不必每次都经过重新训练?

最后,还有其他框架/工具可以让我在没有任何编码的情况下这样做吗?

1 个答案:

答案 0 :(得分:0)

我不了解Java,但是如果你不受那种编程语言的约束,就会有Python NLTK,它有tokenizersngram-models以及很多{{3 }}。还有一个other stuff可用作介绍并获得概述。