我有一个无法显示.data()的数据框。每次给出以下错误?可能有损坏的列吗?
错误:
Py4JJavaError:调用o426.showString时发生错误。 : org.apache.spark.SparkException:由于阶段失败,作业中止了: 阶段381.0中的任务0失败4次,最近一次失败:丢失的任务 在阶段381.0中为0.3(TID 19204,ddlps28.rsc.dwo.com,执行者99):org.apache.spark.api.python.PythonException:追溯(最新 最后调用):文件 “ /opt/cloudera/parcels/SPARK2-2.2.0.cloudera1-1.cdh5.12.0.p0.142354/lib/spark2/python/pyspark/worker.py”, 177行,在主行
答案 0 :(得分:1)
您的错误很可能实际上不在“显示”操作中。正是.show触发了DAG的执行。您说如果不运行UDF,它会起作用,您可能在该UDF中存在另一个错误。日志可能在工作节点上,因此请尝试通过Hadoop UI访问以访问执行程序日志,以查看真正的问题