加入基于密钥的流媒体 - Spark / Kafka

时间:2017-08-02 23:08:39

标签: scala apache-spark apache-kafka

假设2个由spark给出的流和其中一个流不是100%同步。获得流媒体可能会有所不同。我们需要通过密钥加入流媒体。我们有什么方法可以做到没有任何持久性?

1 个答案:

答案 0 :(得分:0)

我认为不可能,Kafka Streams附带了内置支持,可以将Kafka主题中的数据解释为不断更新的表格。在Kafka Streams DSL中,这是通过所谓的Ktable

实现的

这些KTable在Kafka Streams中由state stores支持。这些状态存储是应用程序的本地存储(更准确地说:它们是应用程序实例的本地存储,可以有一个或多个),这意味着与这些状态存储进行交互不需要通过网络进行通信,因此请阅读和写操作非常快。如果你决定不保留数据,你可能会开始丢失你可能不想要的信息