我正在构建一个pyspark应用程序,该应用程序会失败很多,并且有很多工作且步骤很多,因此无法使用cluster id
和step id
进行搜索。当前保存emr时火花的格式低于
S3/buckt-name/logs/sparksteps/j-{clusterid}/steps/s-{stepid}/stderr.gz
我想要一个可以跟踪{clusterid}
和{stepid}
的东西,例如clustername+datetime
和step-name
我看到了log4j.properties,它有一个名为datepattern的东西,但是它没有用datetime保存任何东西
答案 0 :(得分:0)
您可以使用文件拍将日志编入ELK群集(无论是否托管)中。
或使用EMR或Lambda上的引导脚本将日志发送到cloudwatch日志。然后,您可以自定义日志组并根据需要记录流名称。