如何为dask数据帧实现`iloc`函数?

时间:2018-08-01 09:43:08

标签: python pandas data-science dask dask-distributed

我有一个巨大的文件,以hdf5格式存储大约35GB。我必须对某些特定列进行某些计算,并希望将这些计算作为新列插入。我知道我可以直接将新列分配为

df['new_column'] = 0(or some other value)。 但是我有一些计算必须使用先前的行值。在熊猫中,我们可以使用iloc函数来获取前一个索引的值。但是,熊猫无法处理这么大的文件。我很多时候都遇到内存错误。

那么我该如何实现一些函数,该函数可以使用上一行的值,并且可以快速地为我进行计算?或者换句话说,如何实现iloc方法的替代方法?我知道如何使用df.apply函数。

带有实现的代码将不胜感激。谢谢。

1 个答案:

答案 0 :(得分:1)

Dask.dataframe没有实现iloc。

您可能对rolling感兴趣

df.rolling(window=1).apply(...)