如何检索stanford nlp模块分类的所有可能的ner_tags类的列表?

时间:2016-12-13 23:29:40

标签: nlp nltk stanford-nlp

我想看到stanford nlp将文本分类为所有可能的ner_tags,例如PERSON,LOCATION,ORGANIZATION,TITLE等,我在哪里可以找到这些,任何指针都非常受欢迎。

2 个答案:

答案 0 :(得分:0)

来自Stanford NER docs,http://nlp.stanford.edu/software/CRF-NER.shtml

  

<强>模型

     

斯坦福大学NER是一个受过CoNLL训练的4级模特   2003 eng.train,一个在MUC 6和MUC 7上训练的7级模型   训练数据集,以及在数据集和数据集上训练的3类模型   一些额外的数据(包括ACE 2002和有限数量的   内部数据)在这些类集的交集。 (培训   3类模型的数据不包括任何材料   CoNLL eng.testa或eng.testb数据集,也不是任何MUC 6或7测试   或devtest数据集,也不是Alan Ritter的Twitter NER数据,所以全部   这些仍然是对其表现的有效测试。)

     

3课程:地点,人员,组织

     

4课程:地点,人员,组织,杂项

     

7课程:地点,人员,组织,金钱,百分比,日期,时间

     

这些模型均使用分布相似性   功能,以成本为代价提供一些性能提升   增加它们的大小和运行时间也可提供相同型号   缺少这些功能。

您可能也对

感兴趣

答案 1 :(得分:0)

这取决于语言,使用的统计模型,是否使用tokensregex细粒度NER等。

对于具有默认配置(包括数字NER和SUTime)的英语,您可以在the CoreNLP NERClassifierCombiner page的顶部提到这12种实体类型 - 加上O代表非实体:

  

识别命名(PERSON,LOCATION,ORGANIZATION,MISC),数字(MONEY,NUMBER,ORDINAL,PERCENT)和时间(DATE,TIME,DURATION,SET)实体。

如果添加细粒度的tokensregex NER,您还可以获得:

  

CAUSE_OF_DEATH,CITY,COUNTRY,CRIMINAL_CHARGE,EMAIL,IDEOLOGY,NATIONALITY,RELIGION,STATE_OR_PROVINCE,TITLE,URL