我看到spark avro数据源是基于FileFormat接口实现的。 有没有关于如何基于FileFormat编写spark自定义数据源的文档?到目前为止我找不到任何(除了来自spark avro的源代码)。
谢谢!
答案 0 :(得分:4)
以下是一个简单的基于文件的spark数据源的示例:https://hackernoon.com/extending-our-spark-sql-query-engine-5f4a088de986
以下是一些实现Data Sources API的示例: * https://github.com/databricks/spark-csv * https://github.com/databricks/spark-avro
答案 1 :(得分:-1)
Spark 在第 3 版中更改了 API,有关如何在新 API 中创建自定义数据源的信息,请参阅此 link。
请注意,此 API 已被注释为不断发展,因此将来可能会发生变化。