Question

我正在尝试使用dask库读取大量数据，如下所示

将dask.dataframe导入为dd

df = dd.read_csv('some_file.txt', sep = '|', header = None)

虽然这个工作正常但我得到了一组分区，出于某种原因，每当我尝试设置和索引如下：

df = dd.read_csv('some_file.txt', sep = '|', header = None).set_index('col1')

我的机器内存不足，我无法找出原因

任何建议都将不胜感激

Answer 1

重新设置大型数据集的索引是一项昂贵的操作，通常需要进行大量的核心外排序操作。 Dask通过partd微项目完成此任务。

但是，partd仍应在较小的空间内运行，大约1GB的RAM。您需要提供更多信息才能正确诊断问题。

或者，如果你能找到一种避免昂贵的随机/设置索引操作的方法，那么这些操作总是很明智。