使用dask模块读取大型txt文件

时间:2016-03-18 09:10:30

标签: python python-2.7 dask

我正在尝试使用dask库读取大量数据,如下所示

将dask.dataframe导入为dd

df = dd.read_csv('some_file.txt', sep = '|', header = None)

虽然这个工作正常但我得到了一组分区,出于某种原因,每当我尝试设置和索引如下:

df = dd.read_csv('some_file.txt', sep = '|', header = None).set_index('col1')

我的机器内存不足,我无法找出原因

任何建议都将不胜感激

1 个答案:

答案 0 :(得分:0)

重新设置大型数据集的索引是一项昂贵的操作,通常需要进行大量的核心外排序操作。 Dask通过partd微项目完成此任务。

但是,partd仍应在较小的空间内运行,大约1GB的RAM。您需要提供更多信息才能正确诊断问题。

或者,如果你能找到一种避免昂贵的随机/设置索引操作的方法,那么这些操作总是很明智。