如何合并两个Word2Vec文件

时间:2019-01-24 01:46:07

标签: python tensorflow word2vec

我使用Word2Vec创建了模型。 但是结果并不理想。 所以我想加一个词。 我第一次创建的代码 可以创建,但不能添加。 请告诉我如何添加。

createModel.py

token = loadCsv("test_data")
embeddingmodel = []
for i in range(len(token)):
temp_embeddingmodel = []
for k in range(len(token[i][0])):
    temp_embeddingmodel.append(token[i][0][k])
embeddingmodel.append(temp_embeddingmodel)

embedding = Word2Vec(embeddingmodel, size=300, window=5, min_count=3, iter=100, sg=1,workers=4, max_vocab_size = 360000000)
embedding.save('post.embedding')

loadWord2Vec.py

tokens = W2V.tokenize(sentence)
embedding = Convert2Vec('Data/post.embedding', tokens)
zero_pad = W2V.Zero_padding(embedding, Batch_size, Maxseq_length, Vector_size)

告诉我如何添加或合并Word2Vec的结果

1 个答案:

答案 0 :(得分:2)

没有简单的方法来合并两个Word2Vec模型。

只有一起训练的单词向量才在“同一空间”内,因此具有可比性。

最好的策略是将文本的两个训练语料库结合起来,并在合并后的数据上训练新模型,从而从同一训练课中获得所有单词的单词向量。