熊猫数据帧。使用encoding ='utf-8'保存时丢失部分文本数据

时间:2018-04-24 09:02:28

标签: python pandas unicode encoding

我正在尝试将大量单词(俄语,单字节)放入数据帧列,并将结果数据帧保存到.csv文件中。我需要保存编码文本,但每当我手动设置encoding='utf-8'时,它会切断我的数据的一部分,只保存前100个单词或其他内容。

我正在使用Python 2.7。

(列表非常大,所以这里我只写第一个和最后一个元素)

a = [u'\u0441\u043e\u0432\u043c\u0435\u0449\u0430\u0442\u044c', ... , u'\u044d\u043d\u0435\u0440\u0433\u0438\u0438']
s = [u'\u0441\u043e\u0432\u043c\u0435\u0449\u0430\u0442\u044c', ... , u'\u043b\u0438\u0447\u043d\u043e\u0439']


d = {'col1': [0, 1], 'col2': [a, s]}
df = pd.DataFrame(data=d)

df.to_csv('test.csv', encoding='utf-8')

赞赏任何建议。

1 个答案:

答案 0 :(得分:0)

使用' latin-1'而不是' utf-8'