NLTK的实体类型是什么?

时间:2017-07-20 09:37:38

标签: nltk named-entity-extraction

我一直在努力寻找NLTK实体类型的完整列表。我只能在this page上找到最常见的,但不是完整列表。你能否分享一下NLTK的命名实体类型的完整列表?

1 个答案:

答案 0 :(得分:8)

这是一个非常好的问题,我自己也在想。它似乎没有在任何地方记录,即使在nltk源代码中,当然它是由语料库确定的chunker是在训练 - 看起来是,the ACE corpus,这不是与nltk一起分发。

在消息来源中挖掘了一点点答案:

>>> chunker=nltk.data.load(nltk.chunk._MULTICLASS_NE_CHUNKER) # cf. nltk/chunk/__init__.py
>>> sorted(chunker._tagger._classifier.labels())
['B-FACILITY', 'B-GPE', 'B-GSP', 'B-LOCATION', 'B-ORGANIZATION', 'B-PERSON', 
 'I-FACILITY', 'I-GPE', 'I-GSP', 'I-LOCATION', 'I-ORGANIZATION', 'I-PERSON',
 'O']

请注意,本书中提到的某些“常见”类型(包括DATE和TIME)实际上并未被此chunker检测到。 GPE代表地缘政治实体, GSP代表地理 - 社会 - 政治实体,一个较旧的标签,在ACE项目中被GPE取代。根据他们的定义(见下面的链接),他们似乎非常相同。

编辑, 2019年1月:在Daniel的问题的提示下,我亲自查看documentation of the ACE project以寻找这些实体的描述。果然,this page链接到项目每个阶段的文档。上面列出的实体名称,包括神秘的GSP,但没有 GPE实体,通过项目的phase 1使用。从phase 2开始,GPE在列表中替换了GSP。人们不得不想知道nltk chunker最终是如何接受 GPE和GSP的训练,或者它是如何决定两者之间的。我最好的猜测是,它是在第1阶段和第2阶段材料的组合上进行培训的。