quysle上的pyspark job失败并显示“Retrying exception reading mapper output”

时间:2016-12-03 17:50:53

标签: pyspark qubole

我有一个通过qubole运行的pyspark作业失败,出现以下错误。

Qubole > Shell Command failed, exit code unknown
Qubole > 2016-12-03 17:36:53,097 ERROR shellcli.py:231 - run - Retrying exception reading mapper output: (22, 'The requested URL returned error: 404 Not Found')

Qubole > 2016-12-03 17:36:53,358 ERROR shellcli.py:262 - run - Retrying exception reading mapper logs: (22, 'The requested URL returned error: 404 Not Found')

使用以下配置运行作业:

--num-executors 38 --executor-cores 2 --executor-memory 12288M --driver-memory 4000M --conf spark.storage.memoryFraction=0.3 --conf spark.yarn.executor.memoryOverhead=1024

群集包含30个从属计数。 m2.2xlarge,4核主节点和从节点。

任何有关问题根本原因的见解都会有用。

1 个答案:

答案 0 :(得分:0)

在许多情况下 - 上述错误实际上不是失败的主要原因。在qubole中,spark作业是通过shellCli(1 mapper命令,使用其中一个从节点上的spark-submit调用主pyspark作业)提交的 - 并且由于同一个shellCli进程在yarn-client模式下调用驱动程序 - 通常是由于任何原因(即驱动程序的内存问题),此过程变得糟糕,那么您可能会遇到此问题。 其他不太可能的原因可能是 - 网络连接,其中qubole层无法连接到运行此1映射器调用程序作业的进程/从属节点。