应用错误收集

时间：2019-11-19 11:52:09

标签： azure apache-spark databricks azure-databricks

我对Predicate很陌生。我不断收到一个错误（几乎是随机的-似乎与我的代码无关），只能通过重新启动群集来解决。错误是：

org.apache.spark.SparkException：作业由于阶段故障而中止

...

org.apache.spark.SparkException：无法获取   依赖更新期间spark：//10.100.52.23：37487 / files / packages.tar

以前有人看过吗？请问您是否知道为什么会这样？

我的代码用R编写，并且群集上安装了软件包.stream() .filter(p -> filters.stream().allMatch(filter -> filter.test(p))) ...。我认为这是唯一未包含在默认值中的库。

答案 0 :(得分：0)

微软及其工程团队的

已售票已作出如下回应。

spark_apply（）函数将用户代码（关闭）捆绑在一个名为package.tar的文件中。当有多个sparklyr作业时，某些执行者在无权访问捆绑文件时可能会被分配任务。

需要在上游sparklyr中解决此问题，以便在此处为捆绑文件使用唯一的名称。我们向Sparklyr社区提出了一个问题，可在此处进行跟踪。 https://github.com/sparklyr/sparklyr/issues/2244。

这似乎是一个已知问题，目前我们的团队将修复此错误，但这将需要一些时间。