Word2vec的内存和时间消耗吗?

时间:2018-10-11 10:34:03

标签: nlp data-science word2vec

我正在尝试使用神经网络训练Word2Vec模型。我的问题如下:

如果我错了,请纠正我:word2vec使用输入文本,它与图像的大小顺序不同(就内存而言)?这是否意味着不需要使用GPU来训练word2vec模型,而64Go虚拟云机足以进行训练?文字训练不能超越5-10Go?

1 个答案:

答案 0 :(得分:1)

如果愿意,您可以训练千兆字节,太字节,PB级的word2vec模型。如果您足够耐心的话,可以发送任意数量的文本。

为了提高效率,通常应将模型本身保留在RAM中,但是模型的大小取决于模型正在学习的唯一单词的数量以及为这些单词选择的维数,不是培训数据总数。

因此,您可以从磁盘流式传输数百个千兆字节的文本语料库,以仅使用1GB的RAM来训练小词汇量,小尺寸的word2vec模型。

但是,或者,您可能只有一个GB的语料库,其中包含要保留的数百万个唯一的单词,并为其训练大型矢量-并且该单词的word2vec模型可能不适合64GB或128GB RAM机。

因此,“ word2vec”没有答案–这取决于您的语料库,所需的词汇和其他选择的参数。

GPU可以帮助进行某些类型的计算和工作负载。它们通常不适用于word2vec风格的培训,因为GPU的板载内存和内存带宽可能会受到限制,从而使大型词汇,大型模型遇到瓶颈。