Question

在运行PySpark的AWS EC2实例上使用以下命令。

final_rdd.coalesce(1).saveAsTextFile('<Location for saving file>')

该命令失败，并显示以下日志。

[阶段1：>（0 + 1）/ 1] 19/06/12 05:08:41 WARN TaskSetManager：在阶段1.0中丢失了任务0.0（TID 7，ip-10-145-62-182.ec2 .internal，执行程序2）：org.apache.spark.SparkException：写入行时任务失败             在org.apache.spark.internal.io.SparkHadoopWriter $ .org $ apache $ spark $ internal $ io $ SparkHadoopWriter $$ executeTask（SparkHadoopWriter.scala：155）处             在org.apache.spark.internal.io.SparkHadoopWriter $$ anonfun $ 3.apply（SparkHadoopWriter.scala：83）             在org.apache.spark.internal.io.SparkHadoopWriter $$ anonfun $ 3.apply（SparkHadoopWriter.scala：78）             在org.apache.spark.scheduler.ResultTask.runTask（ResultTask.scala：90）             在org.apache.spark.scheduler.Task.run（Task.scala：121）             在org.apache.spark.executor.Executor $ TaskRunner $$ anonfun $ 10.apply（Executor.scala：402）             在org.apache.spark.util.Utils $ .tryWithSafeFinally（Utils.scala：1360）             在org.apache.spark.executor.Executor $ TaskRunner.run（Executor.scala：408）             在java.util.concurrent.ThreadPoolExecutor.runWorker（ThreadPoolExecutor.java:1149）             在java.util.concurrent.ThreadPoolExecutor $ Worker.run（ThreadPoolExecutor.java:624）             在java.lang.Thread.run（Thread.java:748）     由以下原因引起：org.apache.spark.api.python.PythonException：追溯（最近一次呼叫过去）：       主文件262行“ /mnt/yarn/usercache/hadoop/appcache/application_1556865500911_0446/container_1556865500911_0446_01_000003/pyspark.zip/pyspark/worker.py”         （“％d。％d”％sys.version_info [：2]，版本））     例外：worker中的Python与驱动程序3.5中的Python版本不同，PySpark无法以其他次要版本运行。请检查环境变量PYSPARK_PYTHON和PYSPARK_DRIVER_PYTHON是否已正确设置。             在org.apache.spark.api.python.BasePythonRunner $ ReaderIterator.handlePythonException（PythonRunner.scala：452）             在org.apache.spark.api.python.PythonRunner $$ anon $ 1.read（PythonRunner.scala：588）             在org.apache.spark.api.python.PythonRunner $$ anon $ 1.read（PythonRunner.scala：571）             在org.apache.spark.api.python.BasePythonRunner $ ReaderIterator.hasNext（PythonRunner.scala：406）             在org.apache.spark.InterruptibleIterator.hasNext（InterruptibleIterator.scala：37）             在scala.collection.Iterator $$ anon $ 11.hasNext（Iterator.scala：409）             在scala.collection.Iterator $$ anon $ 11.hasNext（Iterator.scala：409）             在org.apache.spark.internal.io.SparkHadoopWriter $$ anonfun $ 4.apply（SparkHadoopWriter.scala：128）             在org.apache.spark.internal.io.SparkHadoopWriter $$ anonfun $ 4.apply（SparkHadoopWriter.scala：127）             在org.apache.spark.util.Utils $ .tryWithSafeFinallyAndFailureCallbacks（Utils.scala：1394）             在org.apache.spark.internal.io.SparkHadoopWriter $ .org $ apache $ spark $ internal $ io $ SparkHadoopWriter $$ executeTask（SparkHadoopWriter.scala：139）处             ...还有10个

19/06/12 05:08:41错误TaskSetManager：阶段1.0中的任务0失败4次；正在中止工作

19/06/12 05:08:41错误SparkHadoopWriter：正在中止作业job_20190612050833_0014。     org.apache.spark.SparkException：由于阶段失败而导致作业中止：阶段1.0中的任务0失败4次，最近一次失败：阶段1.0中的任务0.3丢失（TID 10，ip-10-145-62-182.ec2。内部，执行程序2）：org.apache.spark.SparkException：写入行时任务失败             在org.apache.spark.internal.io.SparkHadoopWriter $ .org $ apache $ spark $ internal $ io $ SparkHadoopWriter $$ executeTask（SparkHadoopWriter.scala：155）处             在org.apache.spark.internal.io.SparkHadoopWriter $$ anonfun $ 3.apply（SparkHadoopWriter.scala：83）             在org.apache.spark.internal.io.SparkHadoopWriter $$ anonfun $ 3.apply（SparkHadoopWriter.scala：78）             在org.apache.spark.scheduler.ResultTask.runTask（ResultTask.scala：90）             在org.apache.spark.scheduler.Task.run（Task.scala：121）             在org.apache.spark.executor.Executor $ TaskRunner $$ anonfun $ 10.apply（Executor.scala：402）             在org.apache.spark.util.Utils $ .tryWithSafeFinally（Utils.scala：1360）             在org.apache.spark.executor.Executor $ TaskRunner.run（Executor.scala：408）             在java.util.concurrent.ThreadPoolExecutor.runWorker（ThreadPoolExecutor.java:1149）             在java.util.concurrent.ThreadPoolExecutor $ Worker.run（ThreadPoolExecutor.java:624）             在java.lang.Thread.run（Thread.java:748）     由以下原因引起：org.apache.spark.api.python.PythonException：追溯（最近一次呼叫过去）：       主文件262行“ /mnt/yarn/usercache/hadoop/appcache/application_1556865500911_0446/container_1556865500911_0446_01_000003/pyspark.zip/pyspark/worker.py”         （“％d。％d”％sys.version_info [：2]，版本））     例外：worker中的Python与驱动程序3.5中的Python版本不同，PySpark无法以其他次要版本运行。请检查环境变量PYSPARK_PYTHON和PYSPARK_DRIVER_PYTHON是否正确设置。

Answer 1

您有python版本问题。您的工作节点Python版本（2.7）与驱动程序节点Python版本（3.5）不同。请安装正确的版本。

RDD无法在pyspark中保存为文本文件

1 个答案: