火花流写入提前日志是否将所有接收的数据保存到HDFS?

时间:2015-11-20 20:28:15

标签: apache-spark spark-streaming

如果在火花流中启用了预写日志,那么所有接收的数据都会写入HDFS路径吗?或者它只写元数据。 如何清理工作,HDFS路径每天都变得越来越大我是否需要编写一个清理工作来从write ahead logs文件夹中删除数据? 实际上写的日志文件夹实际上有什么?

由于 斯里兰卡

1 个答案:

答案 0 :(得分:0)

启用WAL时,数据将被序列化并保存到HDFS中。因此,您的所有假设都是正确的,HDFS文件会变大。但是,它会通过单独的过程进行清理。我没有得到解释这一点的实际参考,但您可以在源代码中看到它。此外,它引入了更长的处理时间,因为那些是与转换和操作一起运行的进程