我像往常一样训练我的单词矢量。我事先清理了文本,其中每一行都是一个用空格分隔的标记的句子
class Sentences:
def __init__(self):
pass
def __iter__(self):
i = 0
with codecs.open('./data/cleaned_corpus.txt', 'r', 'utf-8') as file:
for line in file:
i += 1
if i % 5000 == 0:
print('processed ' + str(i))
yield line.split()
w2v = Word2Vec(Sentences(), size=100, min_count=10)
w2v.wv.save('model')
问题是某些向量返回的数组值为numpy infs
array([-inf, inf, -inf, inf, inf, inf, inf, inf, -inf, -inf, inf,
inf, -inf, -inf, inf, inf, -inf, -inf, inf, inf, inf, -inf,
inf, inf, -inf, -inf, -inf, inf, -inf, inf, -inf, inf, inf,
-inf, -inf, inf, inf, inf, inf, inf, inf, inf, -inf, -inf,
-inf, -inf, inf, inf, inf, -inf, -inf, -inf, -inf, -inf, -inf,
-inf, -inf, -inf, -inf, inf, -inf, inf, inf, inf, inf, -inf,
inf, -inf, -inf, -inf, -inf, inf, inf, inf, inf, -inf, inf,
-inf, -inf, inf, inf, inf, inf, -inf, inf, -inf, -inf, inf,
-inf, -inf, inf, inf, inf, -inf, -inf, inf, -inf, -inf, -inf,
inf], dtype=float32)
我已经对矢量进行了3次重新训练,我不知道导致这种情况的原因