应用错误收集

具有谓词下推的Spark SQL代理表

时间：2017-11-23 10:47:52

标签： apache-spark apache-spark-sql

Apache Spark中是否有办法创建一个简单地代理底层（自定义）数据源的Spark SQL 代理表？

我有一个自定义数据源，它通过实现org.apache.spark.sql.sources.PrunedFilteredScan支持谓词下推，现在我想对那个过滤谓词传递（下推）到数据源的数据源使用Spark SQL。将数据源注册为普通临时表（使用sqlContext.read.format("mydatasource").load().createOrReplaceTempView("myTable")）不是一个选项，因为这最终会将所有数据都提取到Spark中。

1 个答案:

答案 0 :(得分：1)

临时视图（Dataset.createTempView和Dataset.createOrReplaceTempView）和外部表格（2.2之前的Catalog.createExternalTable，自2.2之后的Catalog.createTable）都不应该将所有数据提取到Spark ，并且所有这些选项都支持与基础源相同程度的推迟下推。

SQL Server代理表
带有两个表的谓词构建器
spark谓词下推是否适用于JDBC？
.as（Encoders.kryo）之后的数据集谓词推论
使用谓词下推加入两个数据集
具有谓词下推的Spark SQL代理表
如何防止谓词下推？
Spark Avro谓词下推
使用Spark-Hbase进行谓词下推
不等式谓词对SQL子查询的解相关

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？