当尝试使用gensim加载中文快速文本模型(cc.zh.300.bin)时,我遇到了以下错误
UnicodeDecodeError:'utf-8'编解码器无法解码位置0的字节0xba: 起始字节无效
有人可以帮助我吗?下面的详细错误:
答案 0 :(得分:0)
KeyedVectors.load_word2vec_format()
方法仅加载Google原始word2vec.c
代码所使用的纯文本格式的文件。不会在FastText格式的文件上起作用。
您应该改用专门用于FastText格式文件的方法load_facebook_vectors()
:
https://radimrehurek.com/gensim/models/fasttext.html#gensim.models.fasttext.load_facebook_vectors
对于某些用途,备用load_facebook_model()
也可能合适:
https://radimrehurek.com/gensim/models/fasttext.html#gensim.models.fasttext.load_facebook_model