我一直在尝试使用word级语言模型来处理lingpipe。我遇到的所有示例和教程都显示了character-n-gram模型。如何使用lingpipe训练单词级模型,然后使用该模型在其他文档上进行测试?
此外,我注意到TokenizedLM不可序列化。我是不是可以保存它并在以后加载它而不必每次都经过重新训练?
最后,还有其他框架/工具可以让我在没有任何编码的情况下这样做吗?
答案 0 :(得分:0)
我不了解Java,但是如果你不受那种编程语言的约束,就会有Python NLTK,它有tokenizers和ngram-models以及很多{{3 }}。还有一个other stuff可用作介绍并获得概述。