应用错误收集

我使用来自R的Spark，通过sparklyr包对大型数据集（＆gt; 500mill obs）进行回归。但是我想要一个加权回归，我似乎无法找到正确的语法/函数。

目前我在做

sparklyr::ml_linear_regression(
    data_spark, 
    response = "y", 
    features = c("x1", "x2"))

使用基础R我就是这样做。

lm(y ~ x1 + x2, weights = "wt", data = data)

但是基地R当然无法处理我看似庞大的数据。

如何使用sparklyr包与Spark接口，使用来自R的spark做同样的事情？

（我已尝试与Spark捆绑的SparkR完成所有这些操作; SparkR::spark.glm()正是我需要的weightCol参数，但我无法做到使用这个包使Spark工作，因为我无法将数据复制到Spark;总是命中＆＃34;错误：内存耗尽（达到限制？）＆＃34;，即使我调整了sparkConfig参数）

使用Spark + R进行加权线性回归

0 个答案: