我正在使用gensim来加载fasttext的预训练词嵌入
de_model = KeyedVectors.load_word2vec_format('wiki.de\wiki.de.vec')
但是这给了我一个内存错误。
我有什么方法可以加载吗?
答案 0 :(得分:3)
除了在具有更多内存的计算机上工作外,gensim
load_word2vec_format()
方法都有一个limit
选项,可以将 n 的向量赋予读。仅加载文件的第一个 n 向量。
例如,仅加载前100,000个单词:
de_model = KeyedVectors.load_word2vec_format('wiki.de\wiki.de.vec', limit=100000)
由于这些文件通常首先对更频繁的单词进行排序,而稀有单词的“长尾”往往是较弱的向量,因此许多应用程序不会通过丢弃较少的单词而损失太多的功率。