我正在尝试从Wikipedia文本数据中训练word2vec模型,因为我正在使用以下代码。
import logging
import os.path
import sys
import multiprocessing
from gensim.corpora import WikiCorpus
from gensim.models import Word2Vec
from gensim.models.word2vec import LineSentence
if __name__ == '__main__':
program = os.path.basename(sys.argv[0])
logger = logging.getLogger(program)
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s')
logging.root.setLevel(level=logging.INFO)
logger.info("running %s" % ' '.join(sys.argv))
# check and process input arguments
if len(sys.argv) < 3:
print (globals()['__doc__'])
sys.exit(1)
inp, outp = sys.argv[1:3]
model = Word2Vec(LineSentence(inp), size=400, window=5, min_count=5, workers=multiprocessing.cpu_count())
# trim unneeded model memory = use (much) less RAM
model.init_sims(replace=True)
model.save(outp)
但是程序运行20分钟后,出现以下错误
答案 0 :(得分:0)
理想情况下,您应该将错误的文本粘贴到问题中,而不要粘贴屏幕截图。但是,我看到两条关键线:
<TIMESTAMP> : INFO : estimated required memory for 2372206 words and 400 dimensions: 8777162200 bytes
...
MemoryError: unable to allocate array with shape (2372206, 400) and data type float32
经过语料库一次后,该模型了解了可以保留多少个唯一的单词,该单词报告必须分配一个模型的大小:一个单词占用8777162200 bytes
(约8.8GB)。但是,当尝试分配所需的向量数组时,您会得到MemoryError
,这表明没有足够的计算机可寻址内存(RAM)可用。
您可以:
您可以通过将默认的min_count=5
参数增加到min_count=10
或min_count=20
或min_count=50
来减少单词数。 (您可能不需要超过200万个单词向量-仅用几万个单词的词汇量就可以实现许多有趣的结果。)
您还可以设置一个max_final_vocab
值,以指定要保留的唯一单词的确切数目。例如,max_final_vocab=500000
仅保留500000个最常用的单词,而忽略其余的单词。
减少size
也将节省内存。 size=300
的设置对于单词向量很普遍,它将使内存需求减少四分之一。
一起使用size=300, max_final_vocab=500000
应该将所需的内存减少到2GB以下。
答案 1 :(得分:0)
我在处理 pandas 数据框时遇到了同样的问题,我通过将 float64 类型转换为 unint8 来解决它(当然对于那些不一定需要是 float64 的,您可以尝试 float32 而不是 64)
data['label'] = data['label'].astype(np.uint8)
如果您遇到转换错误
data['label'] = data['label'].astype(np.uint8,errors='ignore')
答案 2 :(得分:0)
我不知道它在这种情况下是否有效,但是您可以通过使用 SSD 中的空间来增加系统中的虚拟 RAM 量。 当运行算法所需的 RAM 太高时,它在不同项目中对我有用。
-转到“开始”菜单并单击“设置”。 -类型性能。 - 选择调整 Windows 的外观和性能。 - 在新窗口中,转到“高级”选项卡,然后在“虚拟内存”部分下,单击“更改”。 - 在新窗口的底部,检查推荐值是什么以及它与当前分配的比较。 你可以超过推荐值