Spacy 2.0 en_vectors_web_lg vs en_core_web_lg

时间:2017-11-08 15:43:25

标签: spacy

en_core_web_lgen_vectors_web_lg中给出的单词向量有什么区别?键的数量是不同的:1.1米对685k。我认为这意味着en_vectors_web_lg具有更广泛的覆盖范围,通过保持形态信息在某种程度上导致更多不同的令牌,因为它们都在共同爬行语料库中训练但具有不同数量的令牌。

1 个答案:

答案 0 :(得分:6)

en_vectors_web_lg包中恰好包含原始GloVe模型提供的每个向量。 en_core_web_lg模型使用v1.x en_core_web_lg模型中的词汇表,该模型从内存中删除了在Reddit注释的100亿字转储中发生的次数少于10次的所有条目。

理论上,大多数被删除的向量应该是spaCy tokenizer永远不会产生的东西。然而,早期使用完整GloVe载体的实验确实略高于当前的NER模型---因此我们可能通过丢失额外的载体而实际上错过了某些东西。我会对此进行更多实验,并可能会切换lg模型以包含未修剪的向量表,尤其是现在我们拥有md模型,它比当前{更好地进行妥协} {1}}包。