每组火花火车分布式模型

时间:2018-10-11 21:36:40

标签: apache-spark machine-learning group-by apache-spark-sql

我如何在数据框中(通过按键操作进行分组之后获得)中的每组火花训练分布式机器学习模型?

sparklyR提供此便利功能:

  

http://spark.rstudio.com

spark_apply(
  iris_tbl,
  function(e) broom::tidy(lm(Petal_Width ~ Petal_Length, e)),
  names = c("term", "estimate", "std.error", "statistic", "p.value"),
  group_by = "Species"
)

但是常规的scala API中可能有类似的东西吗?

我听说可能会建议使用collect / weka / ...,但这有一个缺点,那就是不允许进行分布式培训。

是否有一种方法也可以对分组模型进行分布式训练?对于线性回归,Grouped linear regression in Spark是一个很好的解决方法,但是基于树的模型又如何呢?

0 个答案:

没有答案