Question

我正在构建一个pyspark应用程序，该应用程序会失败很多，并且有很多工作且步骤很多，因此无法使用cluster id和step id进行搜索。当前保存emr时火花的格式低于

S3/buckt-name/logs/sparksteps/j-{clusterid}/steps/s-{stepid}/stderr.gz

我想要一个可以跟踪{clusterid}和{stepid}的东西，例如clustername+datetime和step-name

我看到了log4j.properties，它有一个名为datepattern的东西，但是它没有用datetime保存任何东西

Answer 1

您可以使用文件拍将日志编入ELK群集（无论是否托管）中。

或使用EMR或Lambda上的引导脚本将日志发送到cloudwatch日志。然后，您可以自定义日志组并根据需要记录流名称。