应用错误收集

我在zeppelin上有一个pyspark任务，它正在读取一些镶木地板文件并对其进行一些reduce和filter。我在zeppelin的任务中遇到了以下错误（当应用reduce时）：

from operator import add
result = data_rdd.filter(lambda log: log['test'] == "test" and (log['index'] is not None))
.map(lambda log: (int(log['index']),1)).reduceByKey(add).collect()

作业因阶段失败而中止：阶段66.0中的任务4235失败4次，最近失败：阶段66.0中失去任务4235.3（TID 9583，执行者2）：com.amazonaws.AmazonClientException：无法解组错误响应（元素类型“hr”必须由匹配的结束标记“”终止。）。响应代码：502，响应文本：错误网关

虽然我没有再次收到错误，但我的问题是有人知道这里发生了什么吗？

我应该注意到Ceph在那段时间没有停止！

元素类型“hr”必须由Spark中匹配的结束标记“”终止

0 个答案: