如何根据FileFormat编写spark自定义数据源

时间:2017-08-09 14:26:30

标签: apache-spark datasource

我看到spark avro数据源是基于FileFormat接口实现的。 有没有关于如何基于FileFormat编写spark自定义数据源的文档?到目前为止我找不到任何(除了来自spark avro的源代码)。

谢谢!

2 个答案:

答案 0 :(得分:4)

以下是一个简单的基于文件的spark数据源的示例:https://hackernoon.com/extending-our-spark-sql-query-engine-5f4a088de986

以下是一些实现Data Sources API的示例: * https://github.com/databricks/spark-csv * https://github.com/databricks/spark-avro

答案 1 :(得分:-1)

Spark 在第 3 版中更改了 API,有关如何在新 API 中创建自定义数据源的信息,请参阅此 link

请注意,此 API 已被注释为不断发展,因此将来可能会发生变化。