如何在OpenNLP中训练chunker来预测单词序列

时间:2014-11-17 15:12:27

标签: java opennlp

在我的项目中,我需要预测句子中的word sequence。我使用了OpenNLP sentence detectiontokenization和他们训练过的模型。但我需要将句子中的单词序列分类为我的相关组的一个标记。但他们的chunker并未预测模式。

例如,如果我的团队是食品,那么chunker应该预测 鸡肉比萨作为一个象征。

任何人都可以解释如何为我们的领域训练他们的模型。

1 个答案:

答案 0 :(得分:0)

OpenNLP是开源的,通过源代码快速戳一下,告诉我他们正在使用朴素贝叶斯分类器[source here]。在某处会有他们用来训练它的代码。这将告诉你如何训练它,以及你需要什么类型的语料库。

重新训练它不会是一个下午的项目,但这些事情往往是时间沉沦。因此,根据您正在做的事情,可能更好地利用您的时间来使用他们的分类器,即使这不是您正在寻找的。我不确定你到底想要做什么,但可能会使用一些黑客,比如你的单词序列之间的共现分数(即多久和#34;鸡肉和#34;和#34;披萨一起出现),作为你希望用重新训练的分类器做的事情的近似值。