我正在使用PySpark运行一些不同数据集的模拟,并且我希望以即时方式将所有控制台输出(INFOS,WARNS等)保存到文本文件中,这是通过在代码中声明将包含日志输出的文本文件。代码将只对输入数据集运行一些操作,并且我计划使用spark-sumbit
运行代码。
这将允许我保存单独的日志以进行单独的模拟,其背后的想法是将日志文件名与输入数据集名称相匹配。
这是否可以在不更改confs
和其他Spark文件的情况下进行?
答案 0 :(得分:1)
如果您正在使用纱线群集,则可以从
获取记录yarn logs -applicationId <application ID>
如果您可以做本地或客户,
spark-submit myapp.py 2> mylogfile