应用错误收集

如何最好地适应许多Spark ML模型

时间：2017-03-17 14:00:11

标签： apache-spark pyspark apache-spark-mllib

（PySpark，Spark 1.6或2.0，与几十个节点共享YARN集群）

我想运行一个自举分析，每个引导带样本都运行在一个太大而不适合单个执行器的数据集上。

我将要开始的天真的方法是：

创建训练数据集的火花数据框
for i in（1,1000）：
- 使用df.sample（）创建sample_df
- 在sample_df上训练模型（逻辑分类器）

尽管每个单独的模型都适合整个群集，但这似乎并不是非常“平行”的思考。

我应该以不同的方式做这件事吗？

0 个答案:

没有答案