从Spark日志中获取数据沿袭

时间:2017-11-12 23:00:47

标签: hadoop apache-spark hdfs data-lineage

我正在探索从Spark Logs for Spark程序中获取数据沿袭信息的选项。

我正在寻找像kafka主题或Tables Spark程序读取或写入的信息,这样我们就可以获得该信息的运行时间并构建端到端的数据移动流程。有谁探索过这样的框架。

当我有信息日志级别设置时,我可以获得有关输入kafka读取和表格写入数据的信息,但是,如果数据被发送到Kafka主题或输入表读取,我就不会获得信息。

任何帮助表示感谢。

谢谢&问候。

1 个答案:

答案 0 :(得分:0)

我通过启用Spark Program的调试级别来进行分析。您可以获得详细的事件堆栈跟踪。

您可以追踪

  1. 输入读取Kafka主题名称
  2. 正在阅读哪些数据库表
  3. 它正在写入哪些数据库表
  4. 问候: