实木复合地板文件中的数据丰富DataStream

时间:2019-01-28 17:06:13

标签: java hdfs apache-flink parquet flink-streaming

我有一个包含ID的Kafka DataStream源。我还有一个数据库,其中包含要添加到传入数据源的其他数据,例如名称,模式。

我最初的尝试包括使用异步I / O向Hive查询此数据。我什至可以对传入的数据进行窗口处理,以减少发送到数据库的查询数量。不幸的是,源数据流很大,因此我无法直接使用hive进行查询,因为它会导致很多性能问题。

现在,我正在考虑将存储在hdfs中的数据作为木地板文件作为StreamTableSource,然后可以用来丰富来自Kafka的传入数据。因此,我对此有两个疑问。

  1. 这是解决此问题的好方法吗?即通过将数据用作表源而不是异步io?
  2. 如果是,我是否应该基于窗口数据创建一个表并处理每个窗口,还是有更好的方法?

0 个答案:

没有答案