应用错误收集

我试图从文本中提取公司名称，同时创建TSV文件来训练StandfordNLP提供的现有模型，该训练文件不支持空格。

在我的文字中，公司名称包含两个或多个单词，例如：Jet Airways，abc inc，因为不允许使用空格，我应该如何训练我的模型将公司名称识别为一个？

java -cp stanford-ner.jar edu.stanford.nlp.process.PTBTokenizer jane-austen-emma-ch1.txt> jane-austen-emma-ch1.tok

这给了我一个带有标记化单词的文件，需要对其进行标记以便识别，但要根据standford的常见问题解答：https://nlp.stanford.edu/software/crf-faq.html#a

“您应确保每一行仅由内容字段和制表符组成。空格不起作用。多余的制表符会引起问题。空白行将两个“文档”分开。“文档”只能是句子或较大的单元（如段落）。这是CRF推理的单元。文档不应太大，否则会浪费大量内存并冒着数字问题的风险。”