SpaCy模型培训数据:维基人

时间:2017-10-02 14:20:00

标签: python nlp dataset spacy

对于2.0版本的SpaCy的模型xx_ent_wiki_sm,提到了“WikiNER”数据集,这导致文章“从维基百科学习多语言命名实体识别”。

是否有任何资源可以下载此类数据集以重新培训该模型?或维基百科转储处理的脚本?

1 个答案:

答案 0 :(得分:6)

Joel(和我的)前研究员小组的数据服务器似乎处于离线状态:http://downloads.schwa.org/wikiner

我在这里找到了wp3文件的镜像,这些是我在spaCy中使用的文件:https://github.com/dice-group/FOX/tree/master/input/Wikiner

要重新训练spaCy模型,您需要创建一个火车/开发分割(我将在线进行直接比较,但是现在......只需随机剪切)和名称扩展名为.iob的文件。然后使用:

spacy convert -n 10 /path/to/file.iob /output/directory

-n 10参数对于在spaCy中的使用非常重要:它将句子连接成伪段落'每个10个句子。这使模型可以了解文档可以包含多个句子。