非传统的命名实体识别

时间:2012-06-20 19:48:52

标签: python nlp nltk stanford-nlp

我正在尝试设计一种有点非传统的NER系统,将某些多字符串标记为单个单位/标记。

有很多很酷的NER工具,但是我有一些特殊的需求,这使得几乎不可能直接使用开箱即用的东西:

首先,不能仅在列表中提取和打印实体 - 它们需要以某种方式标记并合并到标记中。

其次,分类并不重要 - 人/组织/位置无关紧要(至少在输出中)。

第三,这些不仅仅是我们正在寻找的典型ENAMEX命名实体。我们想要公司和组织,还有“气候变化”和“同性恋婚姻”等概念。我在某些工具上看过这些标签,但所有这些都是'提取式'。

我如何获得此类功能?在我自己的手工注释数据集上训练斯坦福标记器是否可以完成这项任务(“气候变化”式的短语被标记为MISC或其他东西)?或者我最好只是制作一个“怪异”实体的候选名单,并在通过常规NER系统运行后检查文本?

非常感谢!

1 个答案:

答案 0 :(得分:3)

命名实体标记器(如Stanford NER)的基础CRF模型实际上可用于识别任何内容,而不仅仅是命名实体。肯定有人成功地使用它们来挑选各种术语。该软件当然可以在上下文中为您提供标记的令牌序列。

然而,是否可以选择以“更无人监督”的方式处理此问题,使用NP分块和配置统计信息,或者使用直接CRF的完全监督方式,在此提供很多关于你想要获得的短语的注释数据。