如何在NLTK / StanfordNLP / CoreNlP中扩展/自定义命名实体?

时间:2018-05-04 08:09:17

标签: nltk stanford-nlp data-mining information-retrieval named-entity-recognition

我使用NLTK来识别原始文本,我发现预定义的NER非常有限,例如:

  • 人的PER
  • ORG for organization

如何将这个有限的NE扩展为更全面的NE,如

  • PSY for psychology
  • CHE for chemistry etc。

我应该以什么格式编写数据集以及我应该将它放在哪条路径上? 提前谢谢!

1 个答案:

答案 0 :(得分:0)

您可以使用此格式训练具有训练数据的新模型。

Joe    PERSON
Smith  PERSON
went   O
to     O
France LOCATION
.

请注意,这是一个制表符分隔文件,左侧是标记,标签和右侧的NER标记。您可以用专门的标签替换它。模型通常训练成千上万句。

此文件是用于训练模型的属性的一个很好的示例:

https://github.com/stanfordnlp/CoreNLP/blob/master/scripts/ner/english.all.3class.distsim.prop

这是训练模型的命令(确保正确设置CLASSPATH)

java -Xmx2g edu.stanford.nlp.ie.crf.CRFClassifier -prop english.all.3class.distsim.prop