我正在开展一个项目,必须跟踪文件转换的血统。 假设一个名为 SomeTextFile.txt 的文件处于多个hive操作下,并且在最后阶段它会根据需要产生一些宏伟的结果。
案例:1 文件就像(如果我对文件应用配置操作)
文件 - > FileAfterAction1 - > FileAfterAction2 ---> FinalResultantFile
在这种情况下,我使用的是hive hook,它存储与文件文件中File.say上应用的中间过程相关的数据,并从该文本文件中读取lineageEngine代码,读取并生成该最终文件的Lineage。
现在因为技术堆栈中存在火花,客户端也可以对文件应用火花动作。
案例:2 同样的事情发生在文件上,但现在是Spark行动。
问题 - 有没有办法在转换的开始和结束之间获取文件中发生的事件的中间信息。
我从网上得到的东西是火花变换呕吐中间图,但在我的情况下,客户端将应用Spark动作而不是Spark变换。 如果有一些带宽,请参与此计划。
答案 0 :(得分:3)
https://issues.apache.org/jira/browse/SPARK-18127
此功能将在Spark 2.2中实现
答案 1 :(得分:0)
Spline可以为您跟踪血统。