stanfordnlp - 训练空间将单词分隔为斯坦福NER模型生成的单一标记

时间:2016-09-18 17:59:45

标签: stanford-nlp

我已经阅读了这里给出的详细描述 - http://nlp.stanford.edu/software/crf-faq.shtml#a根据.prop文件根据标记的输入文件训练模型。但文章说 -

You should make sure each line consists of solely content fields and tab characters. Spaces don't work. Extra tabs will cause problems.

我的文本语料库有一些空格分隔的单词,它们都组合成一个标记而不是单个单词。例如,“赖特州立大学”是一个单一的标记,尽管赖特,州和大学是单独的实体。我想用上面的标记作为单个标记生成模型。文章说生成模型的输入文件应该以制表符分隔的单词给出,第一列是标记,第二列是标签。我怎样才能做到这一点?

1 个答案:

答案 0 :(得分:0)

通常,NER训练数据采用自然语言句子的形式,其中每个标记具有NER标记。你可能有10,000个或更多的句子。

例如:“他就读于莱特州立大学。”

应表示为:

He   O
attended   O
Wright   SCHOOL
State    SCHOOL
University   SCHOOL
.   O

如果没有句子,并且你只是有一个应该以某种方式标记的字符串列表,那么使用RegexNER会更有意义。

您可以在此处找到有关如何使用RegexNER的详细说明:

http://nlp.stanford.edu/software/regexner.html