应用错误收集

我正在使用数据源API从自定义数据库加载Dataframe，我们的数据库允许特殊操作，这些操作未在核心SQL语言中显示。一个例子是DISTINCT操作的优化，它是超快速执行的。

我希望能够编写具有自定义列表达式/操作的查询，如：

select MY_DISTINCT name, lastname from users

我看到它的方式，它也可以是自定义过滤器

select name, lastname from users where name%%*1

%%*1将传递给buildScan，在我返回Dataframe之前，我将在我的数据库中单独处理。

Spark中可以扩展吗？我能找到的唯一相关文档是phatak-dev Github，但它非常小，并且没有显示与SQL查询的连接。

编辑：我正在寻找一种方法来添加额外的表达式并使用数据源API来处理它们