Question

我有一个巨大的数据框（555M +），我想分成火车和测试集。如何使用诸如pop之类的减少内存使用的方法拆分它？我试过了：

with joblib.parallel_backend('dask'):
    print("Before train test split")
    train_X, test_X = result.random_split([0.8, 0.2])
    print("Before train test split features target")
    train_Y = train_X.pop('TARGET')
    test_Y = test_X.pop('TARGET')

但是不幸的是，当我得到AttributeError时，似乎在dask数据帧上没有这样的方法：'DataFrame'对象没有属性'pop'

这是针对多类别分类的问题。如果您有什么建议，我会很努力地为您提供帮助！您可以找到我的存储库here。

Answer 1

以后，对于功能请求，我建议在https://github.com/dask/dask/issues/new上提出问题

我在此处添加了一个实现：https://github.com/dask/dask/pull/5422

如何在dask数据框上弹出列？

1 个答案: