pandas csv写的ascii忽略编码

时间:2014-04-23 15:22:39

标签: python csv pandas dataframe

Pandas csv解析器(http://pandas.pydata.org/pandas-docs/stable/generated/pandas.io.parsers.read_csv.html)支持不同的编码:

import pandas
data = pandas.read_csv(myfile, encoding='utf-8', quotechar='"', delimiter=',') 

如何实现ascii忽略我的数据帧的编码案例?

encode('ascii', 'ignore')

1 个答案:

答案 0 :(得分:1)

熊猫似乎没有让你这样做。在使用pandas阅读之前,我必须预先处理我的CSV文件:

decoded = codecs.decode(myfile.read(), "utf-8", "ignore")
encoded = codecs.encode(decoded, "utf-8", "ignore") #probably superfluous
fakefile = StringIO.StringIO(encoded)
data = pandas.read_csv(fakefile, encoding="utf-8")

如果您有一个非常大的CSV文件,可能会很糟糕,但您可以一次读取csv文件的块。