应用错误收集

Spark-Kudu谓词下推

时间：2019-10-29 21:42:21

标签： apache-spark spark-streaming spark-streaming-kafka apache-kudu

我在实时仪表板上使用kudu和spark流，但我的问题是，当我将kudu表与来自spark stream的批处理一起加入时，它并没有进行谓词下推，并且需要2-3秒在spark中获取整个表格，然后对其进行过滤。有什么办法可以避免这种情况？

谢谢

Alexandru

1 个答案:

答案 0 :(得分：-1)

1.Kudu是Columnar存储引擎，因此您可以选择所需的列。它可以减少从kudu提取的数据。

2.kudu谓词下推支持>，<，> =，<=，=，BETWEEN或IN 在从kudu过滤数据后，也许可以缓存数据。并且可能触发谓词下推。