我在zeppelin上有一个pyspark任务,它正在读取一些镶木地板文件并对其进行一些reduce
和filter
。我在zeppelin的任务中遇到了以下错误(当应用reduce
时):
from operator import add
result = data_rdd.filter(lambda log: log['test'] == "test" and (log['index'] is not None))
.map(lambda log: (int(log['index']),1)).reduceByKey(add).collect()
作业因阶段失败而中止:阶段66.0中的任务4235失败4次,最近失败:阶段66.0中失去任务4235.3(TID 9583,执行者2):com.amazonaws.AmazonClientException:无法解组错误响应(元素类型“hr”必须由匹配的结束标记“”终止。)。响应代码:502,响应文本:错误网关
虽然我没有再次收到错误,但我的问题是有人知道这里发生了什么吗?
我应该注意到Ceph在那段时间没有停止!