Sparklyr错误:org.apache.spark.SparkException:作业由于阶段故障而中止

时间:2019-08-19 22:45:32

标签: r dplyr sparklyr

我正在尝试使用Sparklyr和庞大的飞行数据集运行线性回归(所有NA已从数据中删除),但出现以下内存错误:

错误:org.apache.spark.SparkException:由于阶段失败而导致作业中止:33.0阶段中的任务6失败1次,最近一次失败:33.0阶段中丢失了任务6.0(TID 327,localhost,执行程序驱动程序):java .lang.OutOfMemoryError:Java堆空间(...)

我正在使用以下代码:

lm_model <- my_dataset %>%
  select(A, B, C, D) %>%
  ml_linear_regression(A ~ B + C + D)

您对如何避免此类错误有任何建议吗?

1 个答案:

答案 0 :(得分:0)

可能有效的三件事。

  1. 如果您有大量保存的变量,向量,数据集等,请删除不需要的变量。
  2. 重新启动R会话。
  3. 通过options(java.parameters = "-Xmx8000m")向rJava分配更多内存。