pandas.read_csv的标准字符编码

时间:2017-11-07 08:18:00

标签: python pandas decode encode

read_csv返回此错误: Initializing from file failed使用latin-1utf-8 and ISO-8859-1

from pandas import *

df = dict(A=[1,2,3],B=['abc','efg','hig'],C=[100,200,300])
df = DataFrame(df)   
df

    A    B    C
0   1   abc  100
1   2   efg  200
2   3   hig  300

我用德语字符编写如下:

df.to_csv('Lück.txt', sep='\t', encoding ='utf-8', index=False)

并且无法以这种方式导入它:

read_csv('Lück.txt', sep='\t', encoding = 'utf-8')

毕竟如果有蚂蚁方法来检测特殊的德国字符,我会替换它。

P.S。我已经看到这个问题的帖子数量,但没有一个与我的问题一致,我不擅长标准字符解码/编码,谢谢。

1 个答案:

答案 0 :(得分:1)

有可能根本原因不是德语变音符号,而是.csv文件中的一个或多个“怪异”whitespace个字符。当.csv文件事先被任何类型的copy/paste operation to excel修改时,尤其会发生这种情况。

首先,像这样开始你的python脚本:

Options +FollowSymLinks
RewriteEngine On

RewriteCond %{REQUEST_FILENAME} !-d
RewriteCond %{REQUEST_FILENAME} !-f
RewriteRule ^ index.php [L]

其次,请确保您的.csv文件不包含任何类型的奇怪的白色字符,如here所述。