我有一个巨大的数据框(555M +),我想分成火车和测试集。如何使用诸如pop之类的减少内存使用的方法拆分它?我试过了:
with joblib.parallel_backend('dask'):
print("Before train test split")
train_X, test_X = result.random_split([0.8, 0.2])
print("Before train test split features target")
train_Y = train_X.pop('TARGET')
test_Y = test_X.pop('TARGET')
但是不幸的是,当我得到AttributeError时,似乎在dask数据帧上没有这样的方法:'DataFrame'对象没有属性'pop'
这是针对多类别分类的问题。如果您有什么建议,我会很努力地为您提供帮助!您可以找到我的存储库here。
答案 0 :(得分:0)
以后,对于功能请求,我建议在https://github.com/dask/dask/issues/new上提出问题
我在此处添加了一个实现:https://github.com/dask/dask/pull/5422