dataset - 用于评估命名实体识别的开源NLP工具的Ground Truth数据集

我正在为集合构建文档相似性图。我已经完成了所有基本的事情，如标记化，词干化，停止词删除和词袋表示，以使用Jaccard系数表示文档和计算相似性。我现在正在尝试提取命名实体并评估这些是否有助于提高文档相似性图的质量。我花了很多时间为我的分析找到地面实况数据集。我对消息理解会议（MUC）数据集非常失望。理解它们是神秘的，需要足够的数据清理/按摩才能在不同的平台上使用（如Scala）

我的问题更具体地在这里

是否有关于开始使用MUC数据集的教程，这些数据集可以使用openNLP等开源NLP工具更轻松地分析结果
还有其他可用的数据集吗？
OpenNLP和Stanford Core NLP等工具采用基本上受监督的方法。正确的吗？
GATE是一个很好的工具，用于手工注释你自己的文本语料库正确吗？
对于新的测试数据集（我手工创建），我如何计算基线（词汇转移）或我可以计算哪种指标？

用于评估命名实体识别的开源NLP工具的Ground Truth数据集

1 个答案: