我试图从文本中提取公司名称,同时创建TSV文件来训练StandfordNLP提供的现有模型,该训练文件不支持空格。
在我的文字中,公司名称包含两个或多个单词,例如:Jet Airways,abc inc,因为不允许使用空格,我应该如何训练我的模型将公司名称识别为一个?
java -cp stanford-ner.jar edu.stanford.nlp.process.PTBTokenizer jane-austen-emma-ch1.txt> jane-austen-emma-ch1.tok
这给了我一个带有标记化单词的文件,需要对其进行标记以便识别,但要根据standford的常见问题解答:https://nlp.stanford.edu/software/crf-faq.html#a
“您应确保每一行仅由内容字段和制表符组成。空格不起作用。多余的制表符会引起问题。空白行将两个“文档”分开。“文档”只能是句子或较大的单元(如段落)。这是CRF推理的单元。文档不应太大,否则会浪费大量内存并冒着数字问题的风险。”