使用VACAB_SIZE = 5000
运行此代码,该代码会在大约4分钟后从手套涂饰创建单词向量。当我将VOCAB_SIZE
增加到20000时,它永远不会完成!(持续40分钟,然后我手动将其停止以查找原因):
word_vector = {}
with open(r'glove.42B.300d.txt') as d:
for line in tqdm.tqdm(d):
values = line.split()
word = ' '.join(values[:-300])
if word in idx_arr:
coefs = np.asarray(values[-300:], dtype='float32')
word_vector[word] = coefs
if len(word_vector) == VOCAB_SIZE:
break
我不知道代码是否有问题,或者戴着手套是自然行为。