训练StandFord NLP NER Tagger模型以识别多词公司名称

时间:2019-05-24 10:20:17

标签: stanford-nlp tokenize ner natural-language-processing

我试图从文本中提取公司名称,同时创建TSV文件来训练StandfordNLP提供的现有模型,该训练文件不支持空格。

在我的文字中,公司名称包含两个或多个单词,例如:Jet Airways,abc inc,因为不允许使用空格,我应该如何训练我的模型将公司名称识别为一个?

java -cp stanford-ner.jar edu.stanford.nlp.process.PTBTokenizer jane-austen-emma-ch1.txt> jane-austen-emma-ch1.tok

这给了我一个带有标记化单词的文件,需要对其进行标记以便识别,但要根据standford的常见问题解答:https://nlp.stanford.edu/software/crf-faq.html#a

“您应确保每一行仅由内容字段和制表符组成。空格不起作用。多余的制表符会引起问题。空白行将两个“文档”分开。“文档”只能是句子或较大的单元(如段落)。这是CRF推理的单元。文档不应太大,否则会浪费大量内存并冒着数字问题的风险。”

0 个答案:

没有答案