如果在火花流中启用了预写日志,那么所有接收的数据都会写入HDFS路径吗?或者它只写元数据。 如何清理工作,HDFS路径每天都变得越来越大我是否需要编写一个清理工作来从write ahead logs文件夹中删除数据? 实际上写的日志文件夹实际上有什么?
由于 斯里兰卡
答案 0 :(得分:0)
启用WAL时,数据将被序列化并保存到HDFS中。因此,您的所有假设都是正确的,HDFS文件会变大。但是,它会通过单独的过程进行清理。我没有得到解释这一点的实际参考,但您可以在源代码中看到它。此外,它引入了更长的处理时间,因为那些是与转换和操作一起运行的进程