功能与Stanford-NER中的标签有何不同?

时间:2016-06-06 06:40:41

标签: stanford-nlp

http://nlp.stanford.edu/software/CRF-NER.shtml的常见问题解答告诉我们,我们可以在培训时加入自定义功能。 首先,NER有哪些功能?它与tsv培训文件中的标签有什么不同? 正如此问题Stanford-NER customization to classify software programming keywords中所述,代表标签' Programming_Language',' Operating_System'是否正确?在tsv中的功能列?

有点混乱,请解释一下。

1 个答案:

答案 0 :(得分:1)

标记是您要应用于令牌的标签。例如O,PERSON,LOCATION,ORGANIZATION,PROGRAMMING_LANGUAGE。 O表示不是实体。

功能是您希望CRF分类器在其决策中使用的令牌流的一个方面。

考虑句子"我去年夏天去了法国。"

标签将是[O O O LOCATION O O O]。

例如,一个特征可能是单词本身," word = France"。

一个特征可能是序列中当前单词之前的最后两个单词" word_n-2_n-1 =转到"。

或者某个功能可能类似于单词的形状" shape = Xxxxxx"

特征的要点是CRF分类器可以找到模式,例如具有特定形状的单词往往是O,或者特定单词往往属于特定类。

如果您只想添加新类别(例如PROGRAMMING_LANGUAGE或OPERATING_SYSTEM),则不需要自定义功能。您只需要训练数据,以便系统可以学习如何正确标记令牌。