标签: apache-spark xgboost
我正在使用火花(2.3.2)上的xgboost4j-spark(0.82)进行训练。我的数据集是〜120GB,具有大量功能(〜1500)。为每个评估集重新分区后,在forEachPartition阶段培训失败。
我查看了这个答案https://discuss.xgboost.ai/t/jvm-packages-xgboost4j-external-memory-explain/594,并尝试了作者在此处发布的方法,但没有帮助。
有什么想法吗?
谢谢!