应用错误收集

使用Lingpipe进行单词级语言模型

时间：2011-11-07 00:49:12

标签： java nlp classification document-classification

我一直在尝试使用word级语言模型来处理lingpipe。我遇到的所有示例和教程都显示了character-n-gram模型。如何使用lingpipe训练单词级模型，然后使用该模型在其他文档上进行测试？

此外，我注意到TokenizedLM不可序列化。我是不是可以保存它并在以后加载它而不必每次都经过重新训练？

最后，还有其他框架/工具可以让我在没有任何编码的情况下这样做吗？

1 个答案:

答案 0 :(得分：0)

我不了解Java，但是如果你不受那种编程语言的约束，就会有Python NLTK，它有tokenizers和ngram-models以及很多{{3 }}。还有一个other stuff可用作介绍并获得概述。