Question

我正在使用gensim来加载fasttext的预训练词嵌入

de_model = KeyedVectors.load_word2vec_format('wiki.de\wiki.de.vec')

但是这给了我一个内存错误。

我有什么方法可以加载吗？

Answer 1

除了在具有更多内存的计算机上工作外，gensim load_word2vec_format()方法都有一个limit选项，可以将 n 的向量赋予读。仅加载文件的第一个 n 向量。

例如，仅加载前100,000个单词：

de_model = KeyedVectors.load_word2vec_format('wiki.de\wiki.de.vec', limit=100000)

由于这些文件通常首先对更频繁的单词进行排序，而稀有单词的“长尾”往往是较弱的向量，因此许多应用程序不会通过丢弃较少的单词而损失太多的功率。