我们正在研究实现S3 API的Spark V2数据源,该数据源完全兼容AWS开发工具包,并且包括下推S3 select。
我们的目标是与社区共享此数据源。
我们在火花源内找到了一个可以在逻辑上驻留该数据源的位置: / sql / core / src / main / scala / org / apache / spark / sql / execution / datasources / v2 /
但是,我们不确定这是否正确。我们是否应该建议将此数据源包含在spark本身中?还是在其他一些存储库中,我们可以提议包含新数据源?