如何为在Common Crawl数据集上训练的spacy模型进行解析?

时间:2019-05-01 09:44:04

标签: python nlp spacy

对于在en_vectors_web_lg-2.1.0上受过训练的spacy模型Common Crawl dataset,我想知道如何解析数据集。我了解该语料库包含原始网页数据,元数据摘录和文本摘录。 html标记,URL等是否被过滤掉了?似乎缺少有关如何训练这些模型的文档。任何见解都会有所帮助。

谢谢!

0 个答案:

没有答案