如何最好地适应许多Spark ML模型

时间:2017-03-17 14:00:11

标签: apache-spark pyspark apache-spark-mllib

(PySpark,Spark 1.6或2.0,与几十个节点共享YARN集群)

我想运行一个自举分析,每个引导带样本都运行在一个太大而不适合单个执行器的数据集上。

我将要开始的天真的方法是:

  • 创建训练数据集的火花数据框
  • for i in(1,1000):
    • 使用df.sample()创建sample_df
    • 在sample_df上训练模型(逻辑分类器)

尽管每个单独的模型都适合整个群集,但这似乎并不是非常“平行”的思考。

我应该以不同的方式做这件事吗?

0 个答案:

没有答案