EMR pyspark可跟踪日志记录架构

时间:2019-04-18 08:47:36

标签: apache-spark pyspark log4j amazon-emr

我正在构建一个pyspark应用程序,该应用程序会失败很多,并且有很多工作且步骤很多,因此无法使用cluster idstep id进行搜索。当前保存emr时火花的格式低于

S3/buckt-name/logs/sparksteps/j-{clusterid}/steps/s-{stepid}/stderr.gz

我想要一个可以跟踪{clusterid}{stepid}的东西,例如clustername+datetimestep-name

我看到了log4j.properties,它有一个名为datepattern的东西,但是它没有用datetime保存任何东西

1 个答案:

答案 0 :(得分:0)

您可以使用文件拍将日志编入ELK群集(无论是否托管)中。

或使用EMR或Lambda上的引导脚本将日志发送到cloudwatch日志。然后,您可以自定义日志组并根据需要记录流名称。