Question

我正在尝试将大量单词（俄语，单字节）放入数据帧列，并将结果数据帧保存到.csv文件中。我需要保存编码文本，但每当我手动设置encoding='utf-8'时，它会切断我的数据的一部分，只保存前100个单词或其他内容。

我正在使用Python 2.7。

（列表非常大，所以这里我只写第一个和最后一个元素）

a = [u'\u0441\u043e\u0432\u043c\u0435\u0449\u0430\u0442\u044c', ... , u'\u044d\u043d\u0435\u0440\u0433\u0438\u0438']
s = [u'\u0441\u043e\u0432\u043c\u0435\u0449\u0430\u0442\u044c', ... , u'\u043b\u0438\u0447\u043d\u043e\u0439']


d = {'col1': [0, 1], 'col2': [a, s]}
df = pd.DataFrame(data=d)

df.to_csv('test.csv', encoding='utf-8')

赞赏任何建议。

Answer 1

使用＆＃39; latin-1＆＃39;而不是＆＃39; utf-8＆＃39;

熊猫数据帧。使用encoding ='utf-8'保存时丢失部分文本数据

1 个答案: