我使用NLTK来识别原始文本,我发现预定义的NER非常有限,例如:
如何将这个有限的NE扩展为更全面的NE,如
我应该以什么格式编写数据集以及我应该将它放在哪条路径上? 提前谢谢!
答案 0 :(得分:0)
您可以使用此格式训练具有训练数据的新模型。
Joe PERSON
Smith PERSON
went O
to O
France LOCATION
.
请注意,这是一个制表符分隔文件,左侧是标记,标签和右侧的NER标记。您可以用专门的标签替换它。模型通常训练成千上万句。
此文件是用于训练模型的属性的一个很好的示例:
https://github.com/stanfordnlp/CoreNLP/blob/master/scripts/ner/english.all.3class.distsim.prop
这是训练模型的命令(确保正确设置CLASSPATH)
java -Xmx2g edu.stanford.nlp.ie.crf.CRFClassifier -prop english.all.3class.distsim.prop