Pyspark Dataproc作业失败

时间:2018-09-15 08:04:27

标签: pyspark coursera-api

我在提交有关创建建议的pyspark dataproc工作时遇到了错误日志。

  

15/09/15 06:11:36           信息org.spark_project.jetty.server.Server:jetty-9.3.z-SNAPSHOT           15 18/09/15 06:11:36           org.spark_project.jetty.server.Server:已启动@ 3317ms           15/09/15 06:11:37 INFO org.spark_project.jetty.server.AbstractConnector:           StartedServerConnector @ 6322b8bd {HTTP / 1.1,[http / 1.1]} {0.0.0.0:4040}           2015年18月9日06:11:37 INFO           com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystemBase:GHFS版本:           1.6.8-hadoop218 / 09/15 06:11:38           INFO org.apache.hadoop.yarn.client.RMProxy:           通过cluster-d21a-m / 10.128.0.4:8032连接到ResourceManager           2015年18月9日06:11:41           信息org.apache.hadoop.yarn.client.api.impl.YarnClientImpl:已提交           应用程序application_1536988234373_0004 18/09/15 06:11:46           WARN org.apache.spark.SparkContext:Spark未在本地模式下运行,           因此,检查点目录不得位于本地文件系统上。           目录'checkpoint /'似乎在本地文件系统上。           追溯(最近一次通话):文件“ / tmp / job-           614e830d / train_and_apply.py“,第50行,在           模型= ALS.train(dfRates.rdd,20,20)#您可以调整这些数字,           但是这些都是合理的选择           “ /usr/lib/spark/python/lib/pyspark.zip/pyspark/mllib/recommendation.py”,           火车上的272号线           文件           “ /usr/lib/spark/python/lib/pyspark.zip/pyspark/mllib/recommendation.py”,            229行,            in_prepareFile“ /usr/lib/spark/python/lib/pyspark.zip/pyspark/rdd.py”,            第1364行,在firstValueError:RDD为空/ 09/15 06:11:53 INFO            org.spark_project.jetty.server.AbstractConnector:            已停止Spark @ 6322b8bd {HTTP / 1.1,[http / 1.1]} {0.0.0.0:4040}`

有什么建议吗?

0 个答案:

没有答案