我想看到stanford nlp将文本分类为所有可能的ner_tags,例如PERSON,LOCATION,ORGANIZATION,TITLE等,我在哪里可以找到这些,任何指针都非常受欢迎。
答案 0 :(得分:0)
来自Stanford NER docs,http://nlp.stanford.edu/software/CRF-NER.shtml:
<强>模型强>
斯坦福大学NER是一个受过CoNLL训练的4级模特 2003 eng.train,一个在MUC 6和MUC 7上训练的7级模型 训练数据集,以及在数据集和数据集上训练的3类模型 一些额外的数据(包括ACE 2002和有限数量的 内部数据)在这些类集的交集。 (培训 3类模型的数据不包括任何材料 CoNLL eng.testa或eng.testb数据集,也不是任何MUC 6或7测试 或devtest数据集,也不是Alan Ritter的Twitter NER数据,所以全部 这些仍然是对其表现的有效测试。)
3课程:地点,人员,组织
4课程:地点,人员,组织,杂项
7课程:地点,人员,组织,金钱,百分比,日期,时间
这些模型均使用分布相似性 功能,以成本为代价提供一些性能提升 增加它们的大小和运行时间也可提供相同型号 缺少这些功能。
您可能也对
感兴趣答案 1 :(得分:0)
这取决于语言,使用的统计模型,是否使用tokensregex细粒度NER等。
对于具有默认配置(包括数字NER和SUTime)的英语,您可以在the CoreNLP NERClassifierCombiner page的顶部提到这12种实体类型 - 加上O代表非实体:
识别命名(PERSON,LOCATION,ORGANIZATION,MISC),数字(MONEY,NUMBER,ORDINAL,PERCENT)和时间(DATE,TIME,DURATION,SET)实体。
如果添加细粒度的tokensregex NER,您还可以获得:
CAUSE_OF_DEATH,CITY,COUNTRY,CRIMINAL_CHARGE,EMAIL,IDEOLOGY,NATIONALITY,RELIGION,STATE_OR_PROVINCE,TITLE,URL