我正在与斯坦福NER模型合作,以识别非结构化文本中的组织名称。据我所知,建立stanford ner分类器的训练数据尚未公开。我需要先前标记的NER语料库,其中标记了组织名称,以便我可以重新训练stanford ner模型。
我了解的一个来源:访问路透社语料库并将其与CoNll2003共享任务数据的注释相结合。
我可以获得有关更多来源的建议/指示,以获取之前标记的NER语料库吗? (我需要通过我的学校申请这些数据集)
答案 0 :(得分:0)
您是说您希望使用原始分类器使用的类似NER数据进行重新训练,还是完全避免使用默认语料库?
我会假设第一个。我们用来训练斯坦福英语NER分类器的语料库是:
在任何情况下,都有一个很长的NER数据集列表here。