我有一个包含ID的Kafka DataStream源。我还有一个数据库,其中包含要添加到传入数据源的其他数据,例如名称,模式。
我最初的尝试包括使用异步I / O向Hive查询此数据。我什至可以对传入的数据进行窗口处理,以减少发送到数据库的查询数量。不幸的是,源数据流很大,因此我无法直接使用hive进行查询,因为它会导致很多性能问题。
现在,我正在考虑将存储在hdfs中的数据作为木地板文件作为StreamTableSource
,然后可以用来丰富来自Kafka
的传入数据。因此,我对此有两个疑问。