我有一个大型数据文件,我试图读入Pandas Dataframe。
如果我尝试使用以下代码阅读它:
df = pd.read_csv(file_name,
sep='|',
compression='gzip',
skiprows=54,
comment='#',
names=column_names,
header=None,
usecols=column_numbers,
engine='python',
nrows=15347,
na_values=["None", " "])
它完美无缺,但并不快。如果我尝试使用C engine
来加速导入,我会收到一条错误消息:
pandas.parser.CParserError: Error tokenizing data. C error: Expected 0 fields in line 55, saw 205
当我更改引擎时看起来出现了问题,并且解析器没有计算出应该使用多少列。我无法弄清楚原因是什么。没有任何输入参数仅由Python引擎支持。
问题仅在我从版本14.1升级到16.0后才出现。
我无法附上数据副本,因为它包含机密信息。