Gensim - 使用GoogleNews-vector模型的内存错误

时间:2017-03-08 14:11:29

标签: nlp gensim word2vec

当我使用 GoogleNews-vectors-negative300.bin 或尝试使用维基百科数据集语料库(1 GB)使用Gensim训练模型时出现内存错误。我的系统中有4GB RAM。有没有办法绕过这个。

我们可以在AWS等云服务上托管它以获得更好的速度吗?

3 个答案:

答案 0 :(得分:3)

对于该向量集,4GB非常紧张;你应该有8GB或更多来加载全套。或者,您可以使用limit的可选load_word2vec_format()参数来加载一些向量。例如,limit=500000只会加载前500,000(而不是全部300万)。由于该文件似乎首先放置更频繁出现的令牌,因此对于许多目的而言可能就足够了。

答案 1 :(得分:0)

无法逃脱4G。 我可以在我的8G RAM Macbook Pro上加载和计算GoogleNews-vectors-negative300.bin。但是,当我在AWS上加载这个巨大的预训练矢量时,我不得不将其升级到16G RAM,因为它同时提供了一个webapp。所以基本上如果你想在具有安全边际的webapp上使用它,你需要16G。

答案 2 :(得分:0)

加载整个Google-News-Vector预训练模型确实非常困难。我可以使用Jupyter Notebook在我的8 GB Ubuntu计算机上加载大约50,000(即总数的1/60)。是的,正如预期的那样,内存/资源使用率触及了顶峰。 因此,使用至少16 GB的空间来加载整个模型是安全的,否则使用limit=30000作为参数,如@gojomo所建议。