Spark-Kudu谓词下推

时间:2019-10-29 21:42:21

标签: apache-spark spark-streaming spark-streaming-kafka apache-kudu

我在实时仪表板上使用kudu和spark流,但我的问题是,当我将kudu表与来自spark stream的批处理一起加入时,它并没有进行谓词下推,并且需要2-3秒在spark中获取整个表格,然后对其进行过滤。 有什么办法可以避免这种情况?

谢谢

Alexandru

1 个答案:

答案 0 :(得分:-1)

1.Kudu是Columnar存储引擎,因此您可以选择所需的列。它可以减少从kudu提取的数据。

2.kudu谓词下推支持>,<,> =,<=,=,BETWEEN或IN 在从kudu过滤数据后,也许可以缓存数据。并且可能触发谓词下推。