如何通过分块列而不是pandas中的行来加载大型csv文件

时间:2017-02-22 10:07:23

标签: csv pandas dataframe chunking

我们可以通过(例如)下面的行块加载一个大的csv文件:

from pandas import *

tp = read_csv('large_dataset.csv', iterator=True, chunksize=1000)  # gives TextFileReader, which is iterable with chunks of 1000 rows.

有人可能会争辩说使用' usecols'是解决方案;但是,根据我的经验,' usecols'从质量上来说,并不像使用“chunksize”那样快。因为,我认为当“使用”时,整个文件仍会被读入内存。已被使用,但仍然是“大块”的。相反,遍历文件;因此,更快。

我们如何将大型csv文件作为列块加载?

0 个答案:

没有答案