我在python中有一个办公桌数据框,它很大。我想将此数据帧拆分为训练测试,以便将其应用于用Keras编写的自动编码器。但是,当我运行下面的代码时,出现了内存问题。
import dask_ml.model_selection
x_train, x_test, y_train, y_test = dask_ml.model_selection.train_test_split(df[[columns]],
df['label'],test_size=0.1, random_state=1)
我认为解决方案是按批次拆分数据帧,但我不知道如何。因此,请告诉我什么是最佳解决方案。
谢谢