我正在尝试以客户端模式在aws emr上运行spark应用程序。我已经设置了一个引导操作,以从s3导入所需的文件和jar,并且我还执行了一个单独的spark作业。
但是,当执行步骤时,找不到我导入的jar。这是stderr的输出:
19/12/01 13:42:05警告DependencyUtils:本地jar / mnt / var / lib / hadoop / steps / s-2HLX7KPZCA07B /〜/ myApplicationDirectory不存在,正在跳过。
我能够从s3存储桶中将应用程序的jar和其他所需文件成功导入到主实例,只需通过引导操作将它们导入到home/ec2-user/myApplicationDirectory/myJar.jar
。
但是我不明白为什么该步骤在mnt / var / lib / hadoop / ... etc中查找jar。
这是cli配置的相关部分:
--steps '[{"Args":["spark-submit",
"--deploy-mode","client",
"--num-executors","1",
“--driver-java-options","-Xss4M",
"--conf","spark.driver.maxResultSize=20g",
"--class”,”myApplicationClass”,
“~/myApplicationDirectory”,
“myJar.jar",
…
application specific arguments and paths to folders here
…],
”Type":"CUSTOM_JAR",
感谢您的帮助,
答案 0 :(得分:0)
似乎无法理解~
是指主目录。尝试将"~/myApplicationDirectory"
更改为"/home/ec2-user/myApplicationDirectory"
。
一个小警告:在问题示例中,直引号"
与“智能”引号“
混合在一起。确保“智能”引号没有出现在您的配置文件中,否则您将收到非常混乱的错误消息。