如何在dask数据框上弹出列?

时间:2019-09-13 09:58:02

标签: dask

我有一个巨大的数据框(555M +),我想分成火车和测试集。如何使用诸如pop之类的减少内存使用的方法拆分它?我试过了:

with joblib.parallel_backend('dask'):
    print("Before train test split")
    train_X, test_X = result.random_split([0.8, 0.2])
    print("Before train test split features target")
    train_Y = train_X.pop('TARGET')
    test_Y = test_X.pop('TARGET')

但是不幸的是,当我得到AttributeError时,似乎在dask数据帧上没有这样的方法:'DataFrame'对象没有属性'pop'

这是针对多类别分类的问题。如果您有什么建议,我会很努力地为您提供帮助!您可以找到我的存储库here

1 个答案:

答案 0 :(得分:0)

以后,对于功能请求,我建议在https://github.com/dask/dask/issues/new上提出问题

我在此处添加了一个实现:https://github.com/dask/dask/pull/5422