使用Spark + R进行加权线性回归

时间:2017-04-27 23:47:27

标签: r apache-spark apache-spark-mllib sparkr sparklyr

我使用来自R的Spark,通过sparklyr包对大型数据集(> 500mill obs)进行回归。但是我想要一个加权回归,我似乎无法找到正确的语法/函数。

目前我在做

sparklyr::ml_linear_regression(
    data_spark, 
    response = "y", 
    features = c("x1", "x2"))

使用基础R我就是这样做。

lm(y ~ x1 + x2, weights = "wt", data = data)

但是基地R当然无法处理我看似庞大的数据。

如何使用sparklyr包与Spark接口,使用来自R的spark做同样的事情?

(我已尝试与Spark捆绑的SparkR完成所有这些操作; SparkR::spark.glm()正是我需要的weightCol参数,但我无法做到使用这个包使Spark工作,因为我无法将数据复制到Spark;总是命中"错误:内存耗尽(达到限制?)",即使我调整了sparkConfig参数)

0 个答案:

没有答案