应用错误收集

我如何在数据框中（通过按键操作进行分组之后获得）中的每组火花训练分布式机器学习模型？

sparklyR提供此便利功能：

http://spark.rstudio.com

spark_apply(
  iris_tbl,
  function(e) broom::tidy(lm(Petal_Width ~ Petal_Length, e)),
  names = c("term", "estimate", "std.error", "statistic", "p.value"),
  group_by = "Species"
)

但是常规的scala API中可能有类似的东西吗？

我听说可能会建议使用collect / weka / ...，但这有一个缺点，那就是不允许进行分布式培训。

是否有一种方法也可以对分组模型进行分布式训练？对于线性回归，Grouped linear regression in Spark是一个很好的解决方法，但是基于树的模型又如何呢？

每组火花火车分布式模型

0 个答案: