根据我的理解,要创建培训文件,您可以将文字放在文本文件中。然后在每个单词后面添加一个空格或制表符以及标签(例如PERS,LOC等等)
我还将示例属性文件中的文本复制到字垫中。如何将这些文件放入我可以输入分类器的gz文件中并使用?
请指导我。我是新手,对技术也相当无能。
答案 0 :(得分:2)
您的培训文件(例如training-data.tsv
)应如下所示:
I O
drove O
to O
Vancouver LOCATION
BC LOCATION
yesterday O
其中O
表示“外部”,而不是命名实体。
列之间的空格为tab
。
您不要将它们放在ser.gz
文件中。 ser.gz文件是训练过程创建的分类器模型。
训练分类器运行:
java -cp ner.jar edu.stanford.nlp.ie.crf.CRFClassifier -prop my-classifier.properties
my-classifier.properties
看起来像这样:
trainFile = training-data.tsv
serializeTo = my-classification-model.ser.gz
map = word=0,answer=1
...
答案 1 :(得分:0)
我建议您查看NLTK文档,了解有关培训解析器的更多信息http://nltk.googlecode.com/svn/trunk/doc/howto/tag.html 。现在,您似乎想要训练CRFClassifier(而不是解析器!);为此,您可以查看此常见问题解答http://nlp.stanford.edu/software/crf-faq.shtml#a