我是Open NLP的新手 - 使用NER进行实体提取,我在Open NLP NER中训练并评估了实体提取的模型,当我用一个单词的实体提供输入文本时工作正常如下:" I想买吉百利"
但它不适用于多字方案例如:"我想要一台Apple MacBook"
如何训练模型选择多字
PS:我已经明白我需要做一些与NLP中提供的BiGrams相关的事情,但是我如何使用OpenNLP呢?答案 0 :(得分:0)
您需要提供涵盖多字词跨度的培训数据。 OpenNLP documentation的示例:
<START:person> Pierre Vinken <END> , 61 years old , will join the board as a nonexecutive director Nov. 29 . Mr . <START:person> Vinken <END> is chairman of Elsevier N.V. , the Dutch publishing group .
除上述格式外,IO/BIO/etc tags也很常见。
在您的示例中,Apple MacBook
可以是Product Name
类型的一个实体,但也可以是两个,Apple
为Company Name
且MacBook
为{ {1}}。如何运作完全取决于您的训练数据。
您可以使用brat手动或直观地创建此类数据。