我在提交有关创建建议的pyspark dataproc
工作时遇到了错误日志。
15/09/15 06:11:36 信息org.spark_project.jetty.server.Server:jetty-9.3.z-SNAPSHOT 15 18/09/15 06:11:36 org.spark_project.jetty.server.Server:已启动@ 3317ms 15/09/15 06:11:37 INFO org.spark_project.jetty.server.AbstractConnector: StartedServerConnector @ 6322b8bd {HTTP / 1.1,[http / 1.1]} {0.0.0.0:4040} 2015年18月9日06:11:37 INFO com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystemBase:GHFS版本: 1.6.8-hadoop218 / 09/15 06:11:38 INFO org.apache.hadoop.yarn.client.RMProxy: 通过cluster-d21a-m / 10.128.0.4:8032连接到ResourceManager 2015年18月9日06:11:41 信息org.apache.hadoop.yarn.client.api.impl.YarnClientImpl:已提交 应用程序application_1536988234373_0004 18/09/15 06:11:46 WARN org.apache.spark.SparkContext:Spark未在本地模式下运行, 因此,检查点目录不得位于本地文件系统上。 目录'checkpoint /'似乎在本地文件系统上。 追溯(最近一次通话):文件“ / tmp / job- 614e830d / train_and_apply.py“,第50行,在 模型= ALS.train(dfRates.rdd,20,20)#您可以调整这些数字, 但是这些都是合理的选择 “ /usr/lib/spark/python/lib/pyspark.zip/pyspark/mllib/recommendation.py”, 火车上的272号线 文件 “ /usr/lib/spark/python/lib/pyspark.zip/pyspark/mllib/recommendation.py”, 229行, in_prepareFile“ /usr/lib/spark/python/lib/pyspark.zip/pyspark/rdd.py”, 第1364行,在firstValueError:RDD为空/ 09/15 06:11:53 INFO org.spark_project.jetty.server.AbstractConnector: 已停止Spark @ 6322b8bd {HTTP / 1.1,[http / 1.1]} {0.0.0.0:4040}`
有什么建议吗?