我正在尝试使用dask库读取大量数据,如下所示
将dask.dataframe导入为dd
df = dd.read_csv('some_file.txt', sep = '|', header = None)
虽然这个工作正常但我得到了一组分区,出于某种原因,每当我尝试设置和索引如下:
df = dd.read_csv('some_file.txt', sep = '|', header = None).set_index('col1')
我的机器内存不足,我无法找出原因
任何建议都将不胜感激
答案 0 :(得分:0)
重新设置大型数据集的索引是一项昂贵的操作,通常需要进行大量的核心外排序操作。 Dask通过partd微项目完成此任务。
但是,partd仍应在较小的空间内运行,大约1GB的RAM。您需要提供更多信息才能正确诊断问题。
或者,如果你能找到一种避免昂贵的随机/设置索引操作的方法,那么这些操作总是很明智。