针对数据分片的XGBoost培训

时间:2020-08-11 14:04:36

标签: xgboost

我是xgboost的新手,他试图弄清楚该算法是否有可能将分片数据训练到多个计算节点中(即,数据在不同服务器上分区)。

作为一个例子,假设一个数据集的数据被数据集.csv分为四个不同的数据集,每个数据集都位于单独的服务器中。 我们是否可以在每个数据集(在每台计算机上运行)上并行训练算法(XGboost),然后合并结果? 这将有助于减少总体运行时间。

谢谢。

1 个答案:

答案 0 :(得分:0)

我知道这些是在多个服务器上分发XGBoost培训的选项:xgboost4j_sparkYARN AWS (MPI, SGE and Hadoop YARNDask。复杂程度有所提高(例如,您可能需要compile xgboost with specific options enabled),并且有limitations,但是我想Dask是您要寻找的。

相关问题