使用大型txt文件训练Gensim word2vec

时间:2019-03-10 10:31:01

标签: python-3.x gensim word2vec

我有一个很大的txt文件(150MG),像这样

'intrepid', 'bumbling', 'duo', 'deliver', 'good', 'one', 'better', 'offering', 'considerable', 'cv', 'freshly', 'qualified', 'private', ...

我想使用该文件训练word2vec模型模型,但它给了我RAM问题。我不知道如何将txt文件馈送到word2vec模型。这是我的代码。我知道我的代码有问题,但我不知道在哪里是吗。

import gensim 


f = open('your_file1.txt')
for line in f:
    b=line
   model = gensim.models.Word2Vec([b],min_count=1,size=32)

w1 = "bad"
model.wv.most_similar (positive=w1)

1 个答案:

答案 0 :(得分:1)

您可以使迭代器一次读取一行文件,而不是一次读取内存中的所有内容。以下应该起作用:

<form action="/books/" <!--other parameters-->">