斯坦福NER工具 - 培训文件中的空格

时间:2015-11-23 00:29:14

标签: stanford-nlp

我一直在查看斯坦福NER分类器。我已经能够使用一个简单的文件来训练模型,该文件只有空格来划分系统期望的项目。例如,

/ a / b / c sanferro 2

/ d / e / f姜2

但是,我在尝试使用以下表单时遇到错误:

/ a / b / c san ferro 2

这里“san ferro”是单个“单词”,“2”是“答案”或所需的标签输出。 我该如何编码空格?我试过用双引号括起来,但这不起作用。

1 个答案:

答案 0 :(得分:0)

通常,您使用CoNLL样式数据来训练CRF。这是一个例子:

-DOCSTART-    O 

John    PERSON
Smith   PERSON
went    O
to      O
France  LOCATION
.       O

Jane    PERSON
Smith   PERSON
went    O
to      O
Hawaii  LOCATION
.       O

A" \ t"字符分隔标记和标记。你在句子之间放了一个空格。您使用特殊符号" -DOCSTART - "指示新文档的开始位置。通常,您提供大量句子。当您训练CRF时就是这种情况。

如果您只是想以相同的方式标记某些模式,您可能需要使用RegexNER,如下所述:http://nlp.stanford.edu/software/regexner/

以下是有关使用NER系统的更多文档:http://nlp.stanford.edu/software/crf-faq.shtml