SparkSQL:jdbc数据源是否具有“ filterPushdown”功能

时间:2018-12-26 06:26:45

标签: apache-spark apache-spark-sql

我正在使用Spark 2.3,并从MySQL表中加载数据。

我想知道是否有一个类似于镶木地板文件的功能“ filterPushdown”。

我有一个大表,其中有数百万行,我需要加载与某些键匹配的数据,以及时间戳> certian_timestamp。

"where key_col in (34,35, .. ) and ts > 1539688500000"

此后,我需要将此数据集与另一个小表连接。

我可以使用“ filterPushdown”和诸如“ joinPushdown”之类的方法在数据库本身中实现此操作(过滤和联接)吗? (如果存在)

1 个答案:

答案 0 :(得分:0)

是的,“过滤器下推”适用于JDBC源,但仅适用于Where子句。

您可以在以下位置查看 https://docs.databricks.com/spark/latest/data-sources/sql-databases.html#push-down-a-query-to-the-database-engine

如果对您的数据库不起作用,请执行以下操作。

http://blog.madhukaraphatak.com/spark-datasource-v2-part-5/

希望这会有所帮助:)

干杯!