将utf-8 CSV文件读入数据帧

时间:2018-01-31 18:37:57

标签: python pandas utf-8

我一直在试图弄清楚如何获取我下载到DataFrame中的UTF-8 CSV。到目前为止我已经尝试了

df = pd.read_csv('myfile.csv', encoding='utf8')

它给了我垃圾。我正在成功地阅读

import csv
with open('some.csv', newline='', encoding='utf-8') as f:
    reader = csv.reader(f)
    for row in reader:
        print(row)

正如本文所述

Reading a UTF8 CSV file with Python

但它读入了这个巨大的文件,我无法将其放入DataFrame中。

我正在使用python 3.感谢您的帮助!

我的具体错误输出是

UnicodeDecodeError:'utf-8'编解码器无法解码位置3中的字节0xa0:无效的起始字节'

我正在尝试使用的文件是从此链接下载的年度CSV文件之一(不是每周,我不确定每周是否有不同的格式)

https://exporter.nih.gov/ExPORTER_Catalog.aspx?sid=2&index=0

1 个答案:

答案 0 :(得分:0)

由于此问题的帖子,我修复了它

'utf-8' codec can't decode byte 0x92 in position 18: invalid start byte

我以为我会尝试他们建议的修复

df = pd.read_csv('myfile.csv', encoding='cp1252')

它有效!它的Windows代码页1252 ...不是utf-8