我正在尝试将KeyedVector word2vec对象转换为tsv文件。这是我的代码:
wv_embeddings = KeyedVectors.load_word2vec_format('GoogleNews-vectors-negative300.bin.gz', binary=True, limit=100000)
您会遍历每个嵌入并将它们保存到tsv文件吗?
答案 0 :(得分:0)
词汇表存储在wv_embeddings.wv.vocab.keys()
中,wv_embeddings.wv.get_vector()
允许获取与单词相对应的向量。 tsv可以用csv standard module编写:
import csv
with open('wv_embeddings.tsv', 'w') as tsvfile:
writer = csv.writer(tsvfile, delimiter='\t')
words = wv_embeddings.wv.vocab.keys()
for word in words:
vector = wv_embeddings.wv.get_vector(word).tolist()
row = [word] + vector
writer.writerow(row)