我正在使用数据源API从自定义数据库加载Dataframe,我们的数据库允许特殊操作,这些操作未在核心SQL语言中显示。一个例子是DISTINCT操作的优化,它是超快速执行的。
我希望能够编写具有自定义列表达式/操作的查询,如:
select MY_DISTINCT name, lastname from users
我看到它的方式,它也可以是自定义过滤器
select name, lastname from users where name%%*1
%%*1
将传递给buildScan
,在我返回Dataframe之前,我将在我的数据库中单独处理。
Spark中可以扩展吗?我能找到的唯一相关文档是phatak-dev Github,但它非常小,并且没有显示与SQL查询的连接。
编辑:我正在寻找一种方法来添加额外的表达式并使用数据源API来处理它们