Databricks / Spark错误-依赖项更新?

时间:2019-11-19 11:52:09

标签: azure apache-spark databricks azure-databricks

我对Predicate很陌生。我不断收到一个错误(几乎是随机的-似乎与我的代码无关),只能通过重新启动群集来解决。错误是:

  

org.apache.spark.SparkException:作业由于阶段故障而中止

     

...

     

org.apache.spark.SparkException:无法获取   依赖更新期间spark://10.100.52.23:37487 / files / packages.tar

以前有人看过吗?请问您是否知道为什么会这样?

我的代码用R编写,并且群集上安装了软件包.stream() .filter(p -> filters.stream().allMatch(filter -> filter.test(p))) ... 。我认为这是唯一未包含在默认值中的库。

1 个答案:

答案 0 :(得分:0)

微软及其工程团队的

已售票已作出如下回应。

spark_apply()函数将用户代码(关闭)捆绑在一个名为package.tar的文件中。当有多个sparklyr作业时,某些执行者在无权访问捆绑文件时可能会被分配任务。

需要在上游sparklyr中解决此问题,以便在此处为捆绑文件使用唯一的名称。我们向Sparklyr社区提出了一个问题,可在此处进行跟踪。 https://github.com/sparklyr/sparklyr/issues/2244

这似乎是一个已知问题,目前我们的团队将修复此错误,但这将需要一些时间。