我对Predicate
很陌生。我不断收到一个错误(几乎是随机的-似乎与我的代码无关),只能通过重新启动群集来解决。错误是:
org.apache.spark.SparkException:作业由于阶段故障而中止
...
org.apache.spark.SparkException:无法获取 依赖更新期间spark://10.100.52.23:37487 / files / packages.tar
以前有人看过吗?请问您是否知道为什么会这样?
我的代码用R编写,并且群集上安装了软件包.stream()
.filter(p -> filters.stream().allMatch(filter -> filter.test(p)))
...
。我认为这是唯一未包含在默认值中的库。
答案 0 :(得分:0)
已售票已作出如下回应。
spark_apply()函数将用户代码(关闭)捆绑在一个名为package.tar的文件中。当有多个sparklyr作业时,某些执行者在无权访问捆绑文件时可能会被分配任务。
需要在上游sparklyr中解决此问题,以便在此处为捆绑文件使用唯一的名称。我们向Sparklyr社区提出了一个问题,可在此处进行跟踪。 https://github.com/sparklyr/sparklyr/issues/2244。
这似乎是一个已知问题,目前我们的团队将修复此错误,但这将需要一些时间。