如何为其他语言制作预训练的矢量(word2vec)?

时间:2016-05-26 12:39:02

标签: c python-2.7 gensim word2vec

我想尝试将word2vec用于Vietnamase语言,但我对预训练的向量感到困惑,当我尝试使用英语时,我使用Google News-vectors-negative300.bin.gz(大约3.4GB)用于预先训练的矢量,并且效果很好。如果我使用越南语言,我应该自己制作数据预训练的载体吗? 如何制作预训练的矢量,如Google News-vectors-negative300.bin.gz,然后我尝试将Google News-vectors-negative300.bin转换为文本格式,结果为:

3000000 300

0.001129 -0.000896 0.000319 0.001534 0.001106 -0.001404 -0.000031 -0.000420 -0.000576 0.001076 -0.001022 -0.000618 -0.000755 0.001404 -0.001640 -0.000633 0.001633 -0.001007 -0.001266 0.000652 -0.000416 -0.001076 0.001526 -0.000275 0.000140 0.001572 0.001358 -0.000832 -0.001404 0.001579 0.000254 -0.000732 -0.000105 -0.001167 0.001579

如何将字母或单词更改为上面的表格?

1 个答案:

答案 0 :(得分:0)

你应该用你的语言数据训练模型。可以使用" decode"和"编码" python中的函数。在你的句子的火车模型之前你应该unicode你的句子。

for sentence in sentences:
    for word in sentence:
        word = word.decode('utf-8')

在此之后,您的模型可以使用" utf-8"支持的任何语言进行训练。 :)