在我的项目中,我需要预测句子中的word sequence
。我使用了OpenNLP
sentence detection
,tokenization
和他们训练过的模型。但我需要将句子中的单词序列分类为我的相关组的一个标记。但他们的chunker
并未预测模式。
例如,如果我的团队是食品,那么chunker应该预测 鸡肉比萨作为一个象征。
任何人都可以解释如何为我们的领域训练他们的模型。
答案 0 :(得分:0)
OpenNLP是开源的,通过源代码快速戳一下,告诉我他们正在使用朴素贝叶斯分类器[source here]。在某处会有他们用来训练它的代码。这将告诉你如何训练它,以及你需要什么类型的语料库。
重新训练它不会是一个下午的项目,但这些事情往往是时间沉沦。因此,根据您正在做的事情,可能更好地利用您的时间来使用他们的分类器,即使这不是您正在寻找的。我不确定你到底想要做什么,但可能会使用一些黑客,比如你的单词序列之间的共现分数(即多久和#34;鸡肉和#34;和#34;披萨一起出现),作为你希望用重新训练的分类器做的事情的近似值。