我正在尝试使用下面的命令加载预训练的word2Vec模型,但出现Unicode错误。需要一些帮助来深入了解它。我四处搜寻,但找不到有效的解决方案。
python -m spacy init-model en /tmp/google_news_vectors --vectors-loc ~/Downloads/GoogleNews-vectors-negative300.bin.gz
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x94 in position 7: invalid start byte
答案 0 :(得分:2)
Spacy希望向量为文本格式,而不是二进制格式:
https://spacy.io/api/cli#init-model
有关如何转换二进制模型,请参见:https://stackoverflow.com/a/33183634/461847