我如何在数据框中(通过按键操作进行分组之后获得)中的每组火花训练分布式机器学习模型?
sparklyR提供此便利功能:
spark_apply( iris_tbl, function(e) broom::tidy(lm(Petal_Width ~ Petal_Length, e)), names = c("term", "estimate", "std.error", "statistic", "p.value"), group_by = "Species" )
但是常规的scala API中可能有类似的东西吗?
我听说可能会建议使用collect / weka / ...,但这有一个缺点,那就是不允许进行分布式培训。
是否有一种方法也可以对分组模型进行分布式训练?对于线性回归,Grouped linear regression in Spark是一个很好的解决方法,但是基于树的模型又如何呢?