Question

我使用NLTK来识别原始文本，我发现预定义的NER非常有限，例如：

如何将这个有限的NE扩展为更全面的NE，如

我应该以什么格式编写数据集以及我应该将它放在哪条路径上？提前谢谢！

Answer 1

您可以使用此格式训练具有训练数据的新模型。

Joe    PERSON
Smith  PERSON
went   O
to     O
France LOCATION
.

请注意，这是一个制表符分隔文件，左侧是标记，标签和右侧的NER标记。您可以用专门的标签替换它。模型通常训练成千上万句。

此文件是用于训练模型的属性的一个很好的示例：

这是训练模型的命令（确保正确设置CLASSPATH）

java -Xmx2g edu.stanford.nlp.ie.crf.CRFClassifier -prop english.all.3class.distsim.prop