en_core_web_lg和en_vectors_web_lg中给出的单词向量有什么区别?键的数量是不同的:1.1米对685k。我认为这意味着en_vectors_web_lg具有更广泛的覆盖范围,通过保持形态信息在某种程度上导致更多不同的令牌,因为它们都在共同爬行语料库中训练但具有不同数量的令牌。
答案 0 :(得分:6)
en_vectors_web_lg
包中恰好包含原始GloVe模型提供的每个向量。 en_core_web_lg
模型使用v1.x en_core_web_lg
模型中的词汇表,该模型从内存中删除了在Reddit注释的100亿字转储中发生的次数少于10次的所有条目。
理论上,大多数被删除的向量应该是spaCy tokenizer永远不会产生的东西。然而,早期使用完整GloVe载体的实验确实略高于当前的NER模型---因此我们可能通过丢失额外的载体而实际上错过了某些东西。我会对此进行更多实验,并可能会切换lg
模型以包含未修剪的向量表,尤其是现在我们拥有md
模型,它比当前{更好地进行妥协} {1}}包。