Question

我在Python上有一个包含近55000行的数据框。有些单元格包含非拉丁字符，当我使用df.to_csv('./df.csv')时，它们将打印为不同的字符。

例如，とある魔術の禁書目録 3 (Toaru Majutsu no Index, #3)在CSV文件中被打印为ã¨ã‚ã‚‹é”è¡“ã®ç¦æ›¸ç›®éŒ² 3 (Toaru Majutsu no Index, #3)。

如何在CSV文件中保留原始拼写？

Answer 1

尝试以下方法之一：

df.to_csv('./df.csv', encoding='utf-8-sig')
df.to_csv('./df.csv', encoding='utf-16')

utf-8-sig代表：

此模块实现了UTF-8编解码器的一种变体：在编码时，将以UTF-8编码的BOM前缀为UTF-8编码的字节。对于有状态编码器，此操作仅执行一次（第一次写入字节流时）。为了对数据开头的可选UTF-8编码BOM进行解码，将被跳过。