我在Python上有一个包含近55000行的数据框。有些单元格包含非拉丁字符,当我使用df.to_csv('./df.csv')
时,它们将打印为不同的字符。
例如,とある魔術の禁書目録 3 (Toaru Majutsu no Index, #3)
在CSV文件中被打印为ã¨ã‚ã‚‹é”è¡“ã®ç¦æ›¸ç›®éŒ² 3 (Toaru Majutsu no Index, #3)
。
如何在CSV文件中保留原始拼写?
答案 0 :(得分:1)
尝试以下方法之一:
df.to_csv('./df.csv', encoding='utf-8-sig')
df.to_csv('./df.csv', encoding='utf-16')
utf-8-sig代表:
此模块实现了UTF-8编解码器的一种变体:在编码时,将以UTF-8编码的BOM前缀为UTF-8编码的字节。对于有状态编码器,此操作仅执行一次(第一次写入字节流时)。为了对数据开头的可选UTF-8编码BOM进行解码,将被跳过。
来源:https://docs.python.org/2.5/lib/module-encodings.utf-8-sig.html