将PySpark日志保存到文本文件

时间:2016-06-09 10:32:28

标签: logging apache-spark pyspark

我正在使用PySpark运行一些不同数据集的模拟,并且我希望以即时方式将所有控制台输出(INFOS,WARNS等)保存到文本文件中,这是通过在代码中声明将包含日志输出的文本文件。代码将只对输入数据集运行一些操作,并且我计划使用spark-sumbit运行代码。

这将允许我保存单独的日志以进行单独的模拟,其背后的想法是将日志文件名与输入数据集名称相匹配。

这是否可以在不更改confs和其他Spark文件的情况下进行?

1 个答案:

答案 0 :(得分:1)

如果您正在使用纱线群集,则可以从

获取记录
yarn logs -applicationId <application ID>

如果您可以做本地或客户,

spark-submit myapp.py 2> mylogfile