我一直在试图弄清楚如何获取我下载到DataFrame中的UTF-8 CSV。到目前为止我已经尝试了
df = pd.read_csv('myfile.csv', encoding='utf8')
它给了我垃圾。我正在成功地阅读
import csv
with open('some.csv', newline='', encoding='utf-8') as f:
reader = csv.reader(f)
for row in reader:
print(row)
正如本文所述
Reading a UTF8 CSV file with Python
但它读入了这个巨大的文件,我无法将其放入DataFrame中。
我正在使用python 3.感谢您的帮助!
我的具体错误输出是
UnicodeDecodeError:'utf-8'编解码器无法解码位置3中的字节0xa0:无效的起始字节'
我正在尝试使用的文件是从此链接下载的年度CSV文件之一(不是每周,我不确定每周是否有不同的格式)
https://exporter.nih.gov/ExPORTER_Catalog.aspx?sid=2&index=0
答案 0 :(得分:0)
由于此问题的帖子,我修复了它
'utf-8' codec can't decode byte 0x92 in position 18: invalid start byte
我以为我会尝试他们建议的修复
df = pd.read_csv('myfile.csv', encoding='cp1252')
它有效!它的Windows代码页1252 ...不是utf-8