当我在EMR(群集模式)上启动我的火花流工作时,我可以在最初的几分钟看到我的工作中的stdout然后它就消失了......
我可以在S3中的以下位置看到几条日志行(我设置EMR将日志复制到我的s3存储桶): s3-us-west-1.amazonaws.com//spark/logs/j-IEMN2TMESREK/containers/application_1454718762107_0001/container_1454718762107_0001_01_000001/stdout.gz
在流媒体作业运行约10秒后,没有更多的stdout传递到日志。
EMR是否将stdout重定向到其他地方?
答案 0 :(得分:0)
原来我的执行者没有得到log4j配置。
我使用bootstrap步骤将log4j.properties放入/tmp/log4jproperties
。
然后使用带有以下参数的spark-submit
--conf spark.executor.extraJavaOptions=-Dlog4j.configuration=/tmp/log4j.properties
--files file:///tmp/log4j.properties