Stanford NER:我如何创建一个可以使用和测试的新训练集?

时间:2013-06-20 17:31:57

标签: stanford-nlp training-data

根据我的理解,要创建培训文件,您可以将文字放在文本文件中。然后在每个单词后面添加一个空格或制表符以及标签(例如PERS,LOC等等)

我还将示例属性文件中的文本复制到字垫中。如何将这些文件放入我可以输入分类器的gz文件中并使用?

请指导我。我是新手,对技术也相当无能。

2 个答案:

答案 0 :(得分:2)

您的培训文件(例如training-data.tsv)应如下所示:

I   O
drove   O
to  O
Vancouver   LOCATION
BC  LOCATION
yesterday   O

其中O表示“外部”,而不是命名实体。

列之间的空格为tab

您不要将它们放在ser.gz文件中。 ser.gz文件是训练过程创建的分类器模型。

训练分类器运行:

java -cp ner.jar edu.stanford.nlp.ie.crf.CRFClassifier -prop my-classifier.properties

my-classifier.properties看起来像这样:

trainFile = training-data.tsv
serializeTo = my-classification-model.ser.gz
map = word=0,answer=1
...

答案 1 :(得分:0)

我建议您查看NLTK文档,了解有关培训解析器的更多信息http://nltk.googlecode.com/svn/trunk/doc/howto/tag.html 。现在,您似乎想要训练CRFClassifier(而不是解析器!);为此,您可以查看此常见问题解答http://nlp.stanford.edu/software/crf-faq.shtml#a