标签: apache-spark
在性能和吞吐量方面,编写用于流数据的写入前向日志(WAL)是一项昂贵的操作吗?如果我获得WAL的一些性能指标,将会非常有帮助。
答案 0 :(得分:1)
如果源是kafka,最好不要使用WAL。最好将每个主题的每个分区的偏移量存储到zookeeper中。当应用程序启动时,它将从zookeeper获取最后存储的偏移量并开始处理下一个事件。 在我的例子中,源是kafka,它通过将偏移量存储到zookeeper得到解决。它更有效,而不是编写WAL,这将显着降低应用程序的吞吐量。