我有一个可以成功启动的群集,至少是在我看到此信息的网页用户界面上显示的内容
URL: spark://Name25:7077
REST URL: spark://Name25:6066 (cluster mode)
Alive Workers: 10
Cores in use: 192 Total, 0 Used
Memory in use: 364.0 GB Total, 0.0 B Used
Applications: 0 Running, 5 Completed
Drivers: 0 Running, 5 Completed
Status: ALIVE
如果我以这种方式使用它,我使用submit命令来运行我的应用程序
./bin/spark-submit --class myapp.Main --master spark://Name25:7077 --deploy-mode cluster /home/lookupjar/myapp-0.0.1-SNAPSHOT.jar /home/etud500.csv /home/
我收到此消息:
使用REST应用程序提交协议运行Spark。 使用Spark的默认log4j配置文件:org / apache / spark / log4j-defaults.properties 16/08/31 15:55:16 INFO RestSubmissionClient:在spark:// Name25:7077中提交启动应用程序的请求。 16/08/31 15:55:27 WARN RestSubmissionClient:无法连接到服务器spark:// Name25:7077。 警告:主端点spark:// Name25:7077不是REST服务器。而是回到遗留提交网关。 16/08/31 15:55:28 WARN NativeCodeLoader:无法为您的平台加载native-hadoop库...使用适用的builtin-java类
如果我以这种方式使用它:
./bin/spark-submit --class myapp.Main --master spark://Name25:6066 --deploy-mode cluster /home/lookupjar/myapp-0.0.1-SNAPSHOT.jar /home//etud500.csv /home/result
我收到此消息
使用REST应用程序提交协议运行Spark。 使用Spark的默认log4j配置文件:org / apache / spark / log4j-defaults.properties 16/08/31 16:59:06 INFO RestSubmissionClient:在spark:// Name25:6066中提交启动应用程序的请求。 16/08/31 16:59:06 INFO RestSubmissionClient:提交成功创建为driver-20160831165906-0004。轮询提交状态...... 16/08/31 16:59:06 INFO RestSubmissionClient:在spark:// Name25:6066中提交提交驱动程序20160831165906-0004状态的请求。 16/08/31 16:59:06 INFO RestSubmissionClient:驱动程序驱动程序的状态-20160831165906-0004现在正在运行。 16/08/31 16:59:06 INFO RestSubmissionClient:驱动程序在10.0.10.48:38917的worker worker-20160831143117-10.0.10.48-38917上运行。 16/08/31 16:59:06 INFO RestSubmissionClient:服务器使用CreateSubmissionResponse响应: { "动作" :" CreateSubmissionResponse", "消息" :"驱动程序成功提交为驱动程序-2010831165906-0004", " serverSparkVersion" :" 2.0.0", " submissionId" :" driver-20160831165906-0004", "成功" :是的 }
我认为它成功但我的应用程序应该有3个输出到给定的路径(/ home / result),因为我在我的代码中使用了:
path =args [1];
rdd1.saveAsTextFile(path+"/rdd1");
rdd2.saveAsTextFile(path+"/rdd2");
rdd3.saveAsTextFile(path+"/rdd3");
问题1:为什么要求我使用" spark:// Name25:6066"而不是" spark:// Name25:7077"?因为根据spark网站我们使用:7077
问题2:如果它表明提交和完成申请成功,为什么我找不到3个输出文件夹?
答案 0 :(得分:0)
Submitting using 6066 does NOT indicate that your job is successfully completed. It just sends request, the job is running in background. You have to check on spark UI for the status of job completion.
If the job is completed and your job generated output files, you can check your file using:
hadoop dfs -ls <path>/rdd1