Question

我有一个大型数据文件，我试图读入Pandas Dataframe。

如果我尝试使用以下代码阅读它：

df = pd.read_csv(file_name,
    sep='|',
    compression='gzip',
    skiprows=54,
    comment='#',
    names=column_names,
    header=None,
    usecols=column_numbers,
    engine='python',
    nrows=15347,
    na_values=["None", " "])

它完美无缺，但并不快。如果我尝试使用C engine来加速导入，我会收到一条错误消息：

 pandas.parser.CParserError: Error tokenizing data. C error: Expected 0 fields in line 55, saw 205

当我更改引擎时看起来出现了问题，并且解析器没有计算出应该使用多少列。我无法弄清楚原因是什么。没有任何输入参数仅由Python引擎支持。

问题仅在我从版本14.1升级到16.0后才出现。

我无法附上数据副本，因为它包含机密信息。

使用C引擎读取CSV时出错

0 个答案: