UnicodeDecodeError:“ utf-8”编解码器无法解码位置24的字节0xa0:无效的起始字节

时间:2019-08-26 08:29:31

标签: python python-3.x kaggle

我正在尝试在Kaggle笔记本上加载“波士顿的犯罪”数据库, (https://www.kaggle.com/AnalyzeBoston/crimes-in-boston) 顺便说一下,可以在这里找到此数据的最新版本: (https://data.boston.gov/dataset/crime-incident-reports-august-2015-to-date-source-new-system/resource/12cb3883-56f5-47de-afa5-3b1cf61b257b) ,当我想使用Pandas读取数据时,出现此错误:

    UnicodeDecodeError: 'utf-8' codec can't decode byte 0xa0 in position 24: invalid start byte

这是我尝试将数据加载到内核中的方法:

my_filepath = '../input/crimes-in-boston/crime.csv'
my_data = pd.read_csv(my_filepath , encoding = 'utf8')

1 个答案:

答案 0 :(得分:2)

我可以使用encoding='ansi'读取文件。有关ANSI编码的一些信息,请参见this question

我的解决方案:

import pandas as pd
df = pd.read_csv('crime.csv', encoding='ansi')

更新:如果遇到错误LookupError: unknown encoding: ansi,请使用encoding='cp1252'