如何使用gensim加载中文快速文本模型?

时间:2020-03-20 17:31:17

标签: gensim fasttext

当尝试使用gensim加载中文快速文本模型(cc.zh.300.bin)时,我遇到了以下错误

UnicodeDecodeError:'utf-8'编解码器无法解码位置0的字节0xba: 起始字节无效

有人可以帮助我吗?下面的详细错误:

enter image description here

1 个答案:

答案 0 :(得分:0)

KeyedVectors.load_word2vec_format()方法仅加载Google原始word2vec.c代码所使用的纯文本格式的文件。不会在FastText格式的文件上起作用。

您应该改用专门用于FastText格式文件的方法load_facebook_vectors()

https://radimrehurek.com/gensim/models/fasttext.html#gensim.models.fasttext.load_facebook_vectors

对于某些用途,备用load_facebook_model()也可能合适:

https://radimrehurek.com/gensim/models/fasttext.html#gensim.models.fasttext.load_facebook_model