应用错误收集

Spacy 2.0 en_vectors_web_lg vs en_core_web_lg

时间：2017-11-08 15:43:25

标签： spacy

en_core_web_lg和en_vectors_web_lg中给出的单词向量有什么区别？键的数量是不同的：1.1米对685k。我认为这意味着en_vectors_web_lg具有更广泛的覆盖范围，通过保持形态信息在某种程度上导致更多不同的令牌，因为它们都在共同爬行语料库中训练但具有不同数量的令牌。

1 个答案:

答案 0 :(得分：6)

en_vectors_web_lg包中恰好包含原始GloVe模型提供的每个向量。 en_core_web_lg模型使用v1.x en_core_web_lg模型中的词汇表，该模型从内存中删除了在Reddit注释的100亿字转储中发生的次数少于10次的所有条目。

理论上，大多数被删除的向量应该是spaCy tokenizer永远不会产生的东西。然而，早期使用完整GloVe载体的实验确实略高于当前的NER模型---因此我们可能通过丢失额外的载体而实际上错过了某些东西。我会对此进行更多实验，并可能会切换lg模型以包含未修剪的向量表，尤其是现在我们拥有md模型，它比当前{更好地进行妥协} {1}}包。