我是xgboost的新手,他试图弄清楚该算法是否有可能将分片数据训练到多个计算节点中(即,数据在不同服务器上分区)。
作为一个例子,假设一个数据集的数据被数据集.csv分为四个不同的数据集,每个数据集都位于单独的服务器中。 我们是否可以在每个数据集(在每台计算机上运行)上并行训练算法(XGboost),然后合并结果? 这将有助于减少总体运行时间。
谢谢。
答案 0 :(得分:0)
我知道这些是在多个服务器上分发XGBoost培训的选项:xgboost4j_spark,YARN AWS (MPI, SGE and Hadoop YARN和Dask。复杂程度有所提高(例如,您可能需要compile xgboost with specific options enabled),并且有limitations,但是我想Dask是您要寻找的。 p>