Pandas csv解析器(http://pandas.pydata.org/pandas-docs/stable/generated/pandas.io.parsers.read_csv.html)支持不同的编码:
import pandas
data = pandas.read_csv(myfile, encoding='utf-8', quotechar='"', delimiter=',')
如何实现ascii忽略我的数据帧的编码案例?
encode('ascii', 'ignore')
答案 0 :(得分:1)
熊猫似乎没有让你这样做。在使用pandas阅读之前,我必须预先处理我的CSV文件:
decoded = codecs.decode(myfile.read(), "utf-8", "ignore")
encoded = codecs.encode(decoded, "utf-8", "ignore") #probably superfluous
fakefile = StringIO.StringIO(encoded)
data = pandas.read_csv(fakefile, encoding="utf-8")
如果您有一个非常大的CSV文件,可能会很糟糕,但您可以一次读取csv文件的块。