我正在尝试使用Gensim和Glove而不是word2vec。为了使Glove的形状与Gensim兼容并使用它,我使用以下代码行:
import gensim
from gensim.scripts.glove2word2vec import glove2word2vec
glove_in = 'glove.840B.300d.txt'
word2vec_format_out = 'glove.840B.300d.txt.word2vec'
glove2word2vec(glove_in, word2vec_format_out)
model =
gensim.models.KeyedVectors.load_word2vec_format(word2vec_format_out,
encoding='utf-8', binary=True)
但是,最后一行代码会出现以下错误:
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbd in position 0:
invalid start byte
我试图首先打开Glove,然后写成csv文件,然后重新打开指定encoding ='utf-8'。我还尝试了其他几个提到的东西,但错误不断回来。有没有人知道这方面的解决方案?