使用chunksize的Pandas read_csv正在跳过数据

时间:2016-03-16 00:31:55

标签: python python-3.x pandas

我正在处理具有19090680行的数据集。那是超过1900万。如果我将chunksize设置为10 ** 6,我的代码会运行两次。这是在它终止之前处理了200万行。如果我将chunksize设置为1000,我在退出for循环之前处理19087680行。这仍然是未处理的3000行。知道为什么吗?

这是我的代码。

cs = 1000
reader = pd.read_csv(file, delimiter='|', header=None, iterator=True, chunksize=cs) 
chunkCount = 0
for chunk in reader:
    processedSeries = chunk.apply(process, axis=1)
    processedSeries.to_csv("processed_data.csv", index=False, sep='|', header=None, mode='a')
编辑:我有pandas 0.17.1-np110py35_0 我正在更新以查看是否可以解决问题。

1 个答案:

答案 0 :(得分:0)

升级到Pandas 0.18.0解决了这个问题。