我使用来自R的Spark,通过sparklyr
包对大型数据集(> 500mill obs)进行回归。但是我想要一个加权回归,我似乎无法找到正确的语法/函数。
目前我在做
sparklyr::ml_linear_regression(
data_spark,
response = "y",
features = c("x1", "x2"))
使用基础R我就是这样做。
lm(y ~ x1 + x2, weights = "wt", data = data)
但是基地R当然无法处理我看似庞大的数据。
如何使用sparklyr
包与Spark接口,使用来自R的spark做同样的事情?
(我已尝试与Spark捆绑的SparkR
完成所有这些操作; SparkR::spark.glm()
正是我需要的weightCol
参数,但我无法做到使用这个包使Spark工作,因为我无法将数据复制到Spark;总是命中"错误:内存耗尽(达到限制?)",即使我调整了sparkConfig参数)