如何训练OpenNLP模型以提取多集词

时间:2017-06-28 10:12:06

标签: machine-learning nlp opennlp named-entity-recognition

我是Open NLP的新手 - 使用NER进行实体提取,我在Open NLP NER中训练并评估了实体提取的模型,当我用一个单词的实体提供输入文本时工作正常如下:" I想买吉百利"

但它不适用于多字方案例如:"我想要一台Apple MacBook"

如何训练模型选择多字

PS:我已经明白我需要做一些与NLP中提供的BiGrams相关的事情,但是我如何使用OpenNLP呢?

1 个答案:

答案 0 :(得分:0)

您需要提供涵盖多字词跨度的培训数据。 OpenNLP documentation的示例:

<START:person> Pierre Vinken <END> , 61 years old , will join the board as a nonexecutive director Nov. 29 . Mr . <START:person> Vinken <END> is chairman of Elsevier N.V. , the Dutch publishing group .

除上述格式外,IO/BIO/etc tags也很常见。

在您的示例中,Apple MacBook可以是Product Name类型的一个实体,但也可以是两个,AppleCompany NameMacBook为{ {1}}。如何运作完全取决于您的训练数据。

您可以使用brat手动或直观地创建此类数据。