每种格式的书写或阅读选项参考在哪里?

时间:2017-06-05 08:44:54

标签: apache-spark apache-spark-sql apache-spark-1.6

我使用Spark 1.6.1。

我们正在尝试使用HiveContext和DataFrameWriter将ORC文件写入HDFS。虽然我们可以使用

df.write().orc(<path>)

我们宁愿做类似

的事情
df.write().options(Map("format" -> "orc", "path" -> "/some_path")

这样我们就可以根据使用此帮助程序库的应用程序灵活地更改格式或根路径。我们在哪里可以找到可以传递到DataFrameWriter的选项的引用?我在这里的文档中找不到任何内容

https://spark.apache.org/docs/1.6.0/api/java/org/apache/spark/sql/DataFrameWriter.html#options(java.util.Map)

1 个答案:

答案 0 :(得分:15)

  

我们在哪里可以找到可以传递给DataFrameWriter的选项的引用?

最明确和权威的答案是sources

您可能会在文档中找到一些说明,但没有单页(可能会从源中自动生成以保持最新状态)。

原因是选项与格式实现有意分离,以便为每个用例提供灵活性(正如您所说):

  

这样我们就可以根据使用此帮助程序库的应用程序灵活地更改格式或根路径。

您的问题与How to know the file formats supported by Databricks?类似,我说:

  

我在哪里可以获得每种文件格式支持的选项列表?

这是不可能的,因为有没有 API(如Spark MLlib)来定义选项。每种格式都是独立完成的...不幸的是,您最好的选择是阅读文档或(更具权威性)源代码。