应用错误收集

如何训练OpenNLP模型以提取多集词

时间：2017-06-28 10:12:06

标签： machine-learning nlp opennlp named-entity-recognition

我是Open NLP的新手 - 使用NER进行实体提取，我在Open NLP NER中训练并评估了实体提取的模型，当我用一个单词的实体提供输入文本时工作正常如下：＆＃34; I想买吉百利＆＃34;

但它不适用于多字方案例如：＆＃34;我想要一台Apple MacBook＆＃34;

如何训练模型选择多字

PS：我已经明白我需要做一些与NLP中提供的BiGrams相关的事情，但是我如何使用OpenNLP呢？

1 个答案:

答案 0 :(得分：0)

您需要提供涵盖多字词跨度的培训数据。 OpenNLP documentation的示例：

<START:person> Pierre Vinken <END> , 61 years old , will join the board as a nonexecutive director Nov. 29 . Mr . <START:person> Vinken <END> is chairman of Elsevier N.V. , the Dutch publishing group .

除上述格式外，IO/BIO/etc tags也很常见。

在您的示例中，Apple MacBook可以是Product Name类型的一个实体，但也可以是两个，Apple为Company Name且MacBook为{ {1}}。如何运作完全取决于您的训练数据。

您可以使用brat手动或直观地创建此类数据。