因此,我们计划使用EMR,该EMR将在一天的过程数据中使用几个小时,并且一旦处理完成就会终止集群。
在常规的cloudera安装(或Hortonworks)上,当我们运行oozie作业时,我们可以清楚地看到Hue中的日志并将它们保存在某处。 那么在EMR上我们可以将这些日志保存到s3,一旦新集群启动并运行,就将这些保存的日志从s3插回新集群的Hue。
请告知
答案 0 :(得分:0)
默认情况下,使用控制台启动的Amazon EMR群集会自动将日志文件存档到Amazon S3。您可以指定自己的日志路径,也可以允许控制台自动为您生成日志路径。
几乎所有EMR节点的/ mnt / var / log /目录中的所有日志都将被持续推送到S3以进行持久存储。这包括应用程序日志,如OOZIE / SQOOP。
应用程序的s3前缀应该像
OOZIE :/j-3GL0155VMY123/node/i-f0954123/applications/oozie/
catalina.2016-11-15.log.gz
catalina.out.gz
derby.log.gz
oozie-error.log.gz
oozie-instrumentation.log.gz
oozie-jpa.log.gz
oozie-ops.log.gz
oozie.log.gz
其中j-3GL0155VMY123是EMR cluster-id,i-f0954123是master / core的instance-id。
如果您担心容器日志,那么您可以查看/j-3GL0155VMY123/containers/
前缀。