Question

根据我的理解，要创建培训文件，您可以将文字放在文本文件中。然后在每个单词后面添加一个空格或制表符以及标签（例如PERS，LOC等等）

我还将示例属性文件中的文本复制到字垫中。如何将这些文件放入我可以输入分类器的gz文件中并使用？

请指导我。我是新手，对技术也相当无能。

Answer 1

您的培训文件（例如training-data.tsv）应如下所示：

I   O
drove   O
to  O
Vancouver   LOCATION
BC  LOCATION
yesterday   O

其中O表示“外部”，而不是命名实体。

列之间的空格为tab。

您不要将它们放在ser.gz文件中。 ser.gz文件是训练过程创建的分类器模型。

训练分类器运行：

java -cp ner.jar edu.stanford.nlp.ie.crf.CRFClassifier -prop my-classifier.properties

my-classifier.properties看起来像这样：

trainFile = training-data.tsv
serializeTo = my-classification-model.ser.gz
map = word=0,answer=1
...

Answer 2

我建议您查看NLTK文档，了解有关培训解析器的更多信息http://nltk.googlecode.com/svn/trunk/doc/howto/tag.html 。现在，您似乎想要训练CRFClassifier（而不是解析器！）;为此，您可以查看此常见问题解答http://nlp.stanford.edu/software/crf-faq.shtml#a