应用错误收集

在我的项目中，我需要预测句子中的word sequence。我使用了OpenNLP sentence detection，tokenization和他们训练过的模型。但我需要将句子中的单词序列分类为我的相关组的一个标记。但他们的chunker并未预测模式。

例如，如果我的团队是食品，那么chunker应该预测鸡肉比萨作为一个象征。

任何人都可以解释如何为我们的领域训练他们的模型。

OpenNLP是开源的，通过源代码快速戳一下，告诉我他们正在使用朴素贝叶斯分类器[source here]。在某处会有他们用来训练它的代码。这将告诉你如何训练它，以及你需要什么类型的语料库。

重新训练它不会是一个下午的项目，但这些事情往往是时间沉沦。因此，根据您正在做的事情，可能更好地利用您的时间来使用他们的分类器，即使这不是您正在寻找的。我不确定你到底想要做什么，但可能会使用一些黑客，比如你的单词序列之间的共现分数（即多久和＃34;鸡肉和＃34;和＃34;披萨一起出现），作为你希望用重新训练的分类器做的事情的近似值。

如何在OpenNLP中训练chunker来预测单词序列

1 个答案: