将自定义列表达式添加到Spark SQL查询

时间:2018-03-15 09:08:08

标签: java scala apache-spark

我正在使用数据源API从自定义数据库加载Dataframe,我们的数据库允许特殊操作,这些操作未在核心SQL语言中显示。一个例子是DISTINCT操作的优化,它是超快速执行的。

我希望能够编写具有自定义列表达式/操作的查询,如:

select MY_DISTINCT name, lastname from users

我看到它的方式,它也可以是自定义过滤器

select name, lastname from users where name%%*1

%%*1将传递给buildScan,在我返回Dataframe之前,我将在我的数据库中单独处理。

Spark中可以扩展吗?我能找到的唯一相关文档是phatak-dev Github,但它非常小,并且没有显示与SQL查询的连接。

编辑:我正在寻找一种方法来添加额外的表达式并使用数据源API来处理它们

0 个答案:

没有答案