自定义NER和POS标记

时间:2014-01-26 00:03:03

标签: nlp stanford-nlp named-entity-recognition pos-tagger

我正在查看Stanford CoreNLP以了解NER和POS标记。但是如果我想为<title>Nights</title>, <genre>Jazz</genre>, <year>1992</year>这样的实体创建自定义标签该怎么办呢? CoreNLP在这种情况下有用吗?

2 个答案:

答案 0 :(得分:4)

CoreNLP开箱即用将限于他们提到的类型:人员,位置,组织,MISC,日期,时间,金钱,号码。不,只是假设它可以“直观地”做到,你将无法识别其他实体:)

在实践中,你必须选择:

  1. 查找标记这些类型的其他NER系统
  2. 使用基于知识的/无监督的方法解决此标记任务。
  3. 搜索包含您想要识别的类型的额外资源(语料库),并重新训练受监督的NER系统(CoreNLP或其他)
  4. 构建(并可能注释)您自己的资源 - 然后您必须定义注释方案,规则等 - 这是工作中非常有趣的一部分!
  5. 的确,除非您找到满足您需求的现有系统,否则将需要付出一些努力!无监督方法可以帮助您引导系统,以便查看是否需要查找/注释专用语料库。在后一种情况下,最好将数据分离为列车/开发/测试部件,以便能够评估最终系统对看不见的数据执行的程度。

答案 1 :(得分:1)

查看此常见问题解答(http://nlp.stanford.edu/software/crf-faq.shtml)以使用CRF分类器来训练新类的模型。您可能会发现它很有用。