对实时数据和历史数据进行Flink SQL

时间:2019-12-22 02:10:39

标签: apache-flink flink-streaming flink-sql

我正在开发一个应用程序,该应用程序要在输入流源(Kafka)和历史数据上运行Flink SQL。我最初的想法是将流源中的所有消息存储在状态后端(例如AWS S3)中。在这种情况下,我的DataStream表示S3中的新事件和历史事件?我想对所有数据运行SQL。有任何想法或建议吗?

2 个答案:

答案 0 :(得分:0)

Flink SQL尚未提供适当的filesystem connector,因此至少在目前为止,这已成为问题。另一方面,Kafka得到很好的支持。

答案 1 :(得分:0)

如果您希望有状态的后端能够随着历史的增长而很好地扩展,那么最好查看可用的连接器。

最可能的候选者似乎是Hbase。


到目前为止,一般的答案。

也许最好从这里开始,但是对于您希望使用S3的人来说,很高兴知道Cloudera Data Platform将很快包含一个由S3支持的Hbase解决方案。

免责声明:我是Cloudera的一名员工,这是Kafka,Hbase和Flink不久之后的推动力