加载fasttext预训练德语单词嵌入的.vec文件丢失内存错误

时间:2018-06-18 13:08:58

标签: nlp gensim word-embedding fasttext

我正在使用gensim来加载fasttext的预训练词嵌入

de_model = KeyedVectors.load_word2vec_format('wiki.de\wiki.de.vec')

但是这给了我一个内存错误。

我有什么方法可以加载吗?

1 个答案:

答案 0 :(得分:3)

除了在具有更多内存的计算机上工作外,gensim load_word2vec_format()方法都有一个limit选项,可以将 n 的向量赋予读。仅加载文件的第一个 n 向量。

例如,仅加载前100,000个单词:

de_model = KeyedVectors.load_word2vec_format('wiki.de\wiki.de.vec', limit=100000)

由于这些文件通常首先对更频繁的单词进行排序,而稀有单词的“长尾”往往是较弱的向量,因此许多应用程序不会通过丢弃较少的单词而损失太多的功率。