用于评估命名实体识别的开源NLP工具的Ground Truth数据集

时间:2015-02-24 20:07:45

标签: dataset nlp opennlp named-entity-recognition

我正在为集合构建文档相似性图。我已经完成了所有基本的事情,如标记化,词干化,停止词删除和词袋表示,以使用Jaccard系数表示文档和计算相似性。我现在正在尝试提取命名实体并评估这些是否有助于提高文档相似性图的质量。我花了很多时间为我的分析找到地面实况数据集。我对消息理解会议(MUC)数据集非常失望。理解它们是神秘的,需要足够的数据清理/按摩才能在不同的平台上使用(如Scala)

我的问题更具体地在这里

  1. 是否有关于开始使用MUC数据集的教程,这些数据集可以使用openNLP等开源NLP工具更轻松地分析结果
  2. 还有其他可用的数据集吗?
  3. OpenNLP和Stanford Core NLP等工具采用基本上受监督的方法。正确的吗?
  4. GATE是一个很好的工具,用于手工注释你自己的文本语料库正确吗?
  5. 对于新的测试数据集(我手工创建),我如何计算基线(词汇转移)或我可以计算哪种指标?

1 个答案:

答案 0 :(得分:0)

首先,我对使用Jaccard系数计算相似性有一些顾虑。我期望TF.IDF和cosinus的相似性可以提供更好的结果。

您的问题的一些答案:

  1. 请参阅CoNLL 203 evaluation campaign:它还提供了数据,评估工具等。您还可以查看ACE
  2. Gate也是一个自动注释文本的管道,但据我所知,NER是一个基于规则的组件。
  3. 基线大部分时间都是一个非常简单的算法(例如多数类),因此它不是比较语料库的基线,而是比较方法。