为什么使用Gensim和Glove继续提供'utf-8'UnicodeDecodeError?

时间:2017-11-22 18:40:08

标签: python-3.x utf-8 gensim

我正在尝试使用Gensim和Glove而不是word2vec。为了使Glove的形状与Gensim兼容并使用它,我使用以下代码行:

import gensim
from gensim.scripts.glove2word2vec import glove2word2vec
glove_in = 'glove.840B.300d.txt'
word2vec_format_out = 'glove.840B.300d.txt.word2vec'
glove2word2vec(glove_in, word2vec_format_out)
model =
gensim.models.KeyedVectors.load_word2vec_format(word2vec_format_out,
encoding='utf-8', binary=True)

但是,最后一行代码会出现以下错误:

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbd in position 0:
invalid start byte

我试图首先打开Glove,然后写成csv文件,然后重新打开指定encoding ='utf-8'。我还尝试了其他几个提到的东西,但错误不断回来。有没有人知道这方面的解决方案?

0 个答案:

没有答案