当我使用 GoogleNews-vectors-negative300.bin 或尝试使用维基百科数据集语料库(1 GB)使用Gensim训练模型时出现内存错误。我的系统中有4GB RAM。有没有办法绕过这个。
我们可以在AWS等云服务上托管它以获得更好的速度吗?
答案 0 :(得分:3)
对于该向量集,4GB非常紧张;你应该有8GB或更多来加载全套。或者,您可以使用limit
的可选load_word2vec_format()
参数来加载一些向量。例如,limit=500000
只会加载前500,000(而不是全部300万)。由于该文件似乎首先放置更频繁出现的令牌,因此对于许多目的而言可能就足够了。
答案 1 :(得分:0)
无法逃脱4G。 我可以在我的8G RAM Macbook Pro上加载和计算GoogleNews-vectors-negative300.bin。但是,当我在AWS上加载这个巨大的预训练矢量时,我不得不将其升级到16G RAM,因为它同时提供了一个webapp。所以基本上如果你想在具有安全边际的webapp上使用它,你需要16G。
答案 2 :(得分:0)
加载整个Google-News-Vector预训练模型确实非常困难。我可以使用Jupyter Notebook在我的8 GB Ubuntu计算机上加载大约50,000(即总数的1/60)。是的,正如预期的那样,内存/资源使用率触及了顶峰。
因此,使用至少16 GB的空间来加载整个模型是安全的,否则使用limit=30000
作为参数,如@gojomo所建议。