Question

对于2.0版本的SpaCy的模型xx_ent_wiki_sm，提到了“WikiNER”数据集，这导致文章“从维基百科学习多语言命名实体识别”。

是否有任何资源可以下载此类数据集以重新培训该模型？或维基百科转储处理的脚本？

Answer 1

Joel（和我的）前研究员小组的数据服务器似乎处于离线状态：http://downloads.schwa.org/wikiner

我在这里找到了wp3文件的镜像，这些是我在spaCy中使用的文件：https://github.com/dice-group/FOX/tree/master/input/Wikiner

要重新训练spaCy模型，您需要创建一个火车/开发分割（我将在线进行直接比较，但是现在......只需随机剪切）和名称扩展名为.iob的文件。然后使用：

spacy convert -n 10 /path/to/file.iob /output/directory

-n 10参数对于在spaCy中的使用非常重要：它将句子连接成伪段落＆＃39;每个10个句子。这使模型可以了解文档可以包含多个句子。