我在实时仪表板上使用kudu和spark流,但我的问题是,当我将kudu表与来自spark stream的批处理一起加入时,它并没有进行谓词下推,并且需要2-3秒在spark中获取整个表格,然后对其进行过滤。 有什么办法可以避免这种情况?
谢谢
Alexandru
答案 0 :(得分:-1)
1.Kudu是Columnar存储引擎,因此您可以选择所需的列。它可以减少从kudu提取的数据。
2.kudu谓词下推支持>,<,> =,<=,=,BETWEEN或IN 在从kudu过滤数据后,也许可以缓存数据。并且可能触发谓词下推。