我有一个用法语写的语料库,在使用gensim库应用一袋单词之后,我保存了词典。保存模型期间,没有编码错误或警告。
当我加载模型或手动浏览文件时,口音不能正确显示
“ã©volu”而不是“évolu”
就在我们将字符串保存到文本文件中时,是否存在encoding="latin-1"
或encoding="cp1252"
来避免此问题?
w2vmodel = gensim.models.Word2Vec(text, size=100, window=5, min_count=5, workers=4)
w2vmodel.save('./w2v_model')
w2vmodelLoad= Word2Vec.load('./w2v_model')
for word in w2vmodelLoad.token2id:
print(word)