我正在尝试在Kaggle笔记本上加载“波士顿的犯罪”数据库, (https://www.kaggle.com/AnalyzeBoston/crimes-in-boston) 顺便说一下,可以在这里找到此数据的最新版本: (https://data.boston.gov/dataset/crime-incident-reports-august-2015-to-date-source-new-system/resource/12cb3883-56f5-47de-afa5-3b1cf61b257b) ,当我想使用Pandas读取数据时,出现此错误:
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xa0 in position 24: invalid start byte
这是我尝试将数据加载到内核中的方法:
my_filepath = '../input/crimes-in-boston/crime.csv'
my_data = pd.read_csv(my_filepath , encoding = 'utf8')
答案 0 :(得分:2)
我可以使用encoding='ansi'
读取文件。有关ANSI编码的一些信息,请参见this question。
我的解决方案:
import pandas as pd
df = pd.read_csv('crime.csv', encoding='ansi')
更新:如果遇到错误LookupError: unknown encoding: ansi
,请使用encoding='cp1252'
。