我一直在查看斯坦福NER分类器。我已经能够使用一个简单的文件来训练模型,该文件只有空格来划分系统期望的项目。例如,
/ a / b / c sanferro 2
/ d / e / f姜2
但是,我在尝试使用以下表单时遇到错误:
/ a / b / c san ferro 2
这里“san ferro”是单个“单词”,“2”是“答案”或所需的标签输出。 我该如何编码空格?我试过用双引号括起来,但这不起作用。
答案 0 :(得分:0)
通常,您使用CoNLL样式数据来训练CRF。这是一个例子:
-DOCSTART- O
John PERSON
Smith PERSON
went O
to O
France LOCATION
. O
Jane PERSON
Smith PERSON
went O
to O
Hawaii LOCATION
. O
A" \ t"字符分隔标记和标记。你在句子之间放了一个空格。您使用特殊符号" -DOCSTART - "指示新文档的开始位置。通常,您提供大量句子。当您训练CRF时就是这种情况。
如果您只是想以相同的方式标记某些模式,您可能需要使用RegexNER,如下所述:http://nlp.stanford.edu/software/regexner/
以下是有关使用NER系统的更多文档:http://nlp.stanford.edu/software/crf-faq.shtml