应用错误收集

如何检索stanford nlp模块分类的所有可能的ner_tags类的列表？

时间：2016-12-13 23:29:40

标签： nlp nltk stanford-nlp

我想看到stanford nlp将文本分类为所有可能的ner_tags，例如PERSON，LOCATION，ORGANIZATION，TITLE等，我在哪里可以找到这些，任何指针都非常受欢迎。

2 个答案:

答案 0 :(得分：0)

来自Stanford NER docs，http://nlp.stanford.edu/software/CRF-NER.shtml：

<强>模型

斯坦福大学NER是一个受过CoNLL训练的4级模特   2003 eng.train，一个在MUC 6和MUC 7上训练的7级模型   训练数据集，以及在数据集和数据集上训练的3类模型   一些额外的数据（包括ACE 2002和有限数量的   内部数据）在这些类集的交集。（培训   3类模型的数据不包括任何材料   CoNLL eng.testa或eng.testb数据集，也不是任何MUC 6或7测试   或devtest数据集，也不是Alan Ritter的Twitter NER数据，所以全部   这些仍然是对其表现的有效测试。）

3课程：地点，人员，组织

4课程：地点，人员，组织，杂项

7课程：地点，人员，组织，金钱，百分比，日期，时间

这些模型均使用分布相似性   功能，以成本为代价提供一些性能提升   增加它们的大小和运行时间也可提供相同型号   缺少这些功能。

您可能也对

感兴趣

CoNLL 2003，http://www.cnts.ua.ac.be/conll2003/ner/
来自NLTK的relextract.py

答案 1 :(得分：0)

这取决于语言，使用的统计模型，是否使用tokensregex细粒度NER等。

对于具有默认配置（包括数字NER和SUTime）的英语，您可以在the CoreNLP NERClassifierCombiner page的顶部提到这12种实体类型 - 加上O代表非实体：

识别命名（PERSON，LOCATION，ORGANIZATION，MISC），数字（MONEY，NUMBER，ORDINAL，PERCENT）和时间（DATE，TIME，DURATION，SET）实体。

如果添加细粒度的tokensregex NER，您还可以获得：

CAUSE_OF_DEATH，CITY，COUNTRY，CRIMINAL_CHARGE，EMAIL，IDEOLOGY，NATIONALITY，RELIGION，STATE_OR_PROVINCE，TITLE，URL