Spark中的动态过滤

时间:2018-10-09 03:15:07

标签: apache-spark apache-spark-sql

我想了解动态过滤的工作原理。 我所知道的是,说有2个表A(具有百万行)和B(具有1万行)。 现在,如果在B上应用谓词,则在A和B之间执行联接时,通过动态过滤,我们可以避免对A进行完全扫描。 这有助于减少混洗的数据。 我的问题是:

  • 1)这是自动发生在火花中还是我必须启用 一些财产?
  • 2)有没有办法提供我的过滤器, 在执行SQL之前?
  • 3)这种方法是否有缺点?
  • 4)是否有任何对此提供解释的链接?

0 个答案:

没有答案