我正在尝试使用Sparklyr和庞大的飞行数据集运行线性回归(所有NA已从数据中删除),但出现以下内存错误:
错误:org.apache.spark.SparkException:由于阶段失败而导致作业中止:33.0阶段中的任务6失败1次,最近一次失败:33.0阶段中丢失了任务6.0(TID 327,localhost,执行程序驱动程序):java .lang.OutOfMemoryError:Java堆空间(...)
我正在使用以下代码:
lm_model <- my_dataset %>%
select(A, B, C, D) %>%
ml_linear_regression(A ~ B + C + D)
您对如何避免此类错误有任何建议吗?
答案 0 :(得分:0)
可能有效的三件事。
options(java.parameters = "-Xmx8000m")
向rJava分配更多内存。