标签: apache-spark pyspark apache-spark-mllib
(PySpark,Spark 1.6或2.0,与几十个节点共享YARN集群)
我想运行一个自举分析,每个引导带样本都运行在一个太大而不适合单个执行器的数据集上。
我将要开始的天真的方法是:
尽管每个单独的模型都适合整个群集,但这似乎并不是非常“平行”的思考。
我应该以不同的方式做这件事吗?