将数据保存到HDFS的格式是什么?

时间:2017-12-21 11:15:44

标签: hadoop apache-spark hdfs apache-spark-sql

创建DataFrame后,我可以将其保存为avro,csv或镶木地板格式。

在dataframe或rdd中是否还有其他格式可用于在Hadoop HDFS中保存数据?

2 个答案:

答案 0 :(得分:2)

来自What Is Apache Hadoop?

  

Hadoop分布式文件系统(HDFS™):一种分布式文件系统,可提供对应用程序数据的高吞吐量访问。

通过这种方式,您可以使用HDFS以任何格式存储虚拟文件,包括avro,CSV,镶木地板等。

在Spark中,您可以使用format方法指定DataFrame的格式,而使用save方法指定存储中的位置。

  

format(source:String):DataFrameWriter [T] 指定基础输出数据源。内置选项包括“镶木地板”,“json”等。

     

save(path:String):Unit 将DataFrame的内容保存在指定的路径中。

您还可以使用快捷方式使用特定格式的方法(如json(path: String)parquet(path: String)或类似方法)定义存储上DataFrame的格式和路径。

答案 1 :(得分:0)

  • RDD save*
    • pyspark.RDD.saveAsHadoopDataset
    • pyspark.RDD.saveAsHadoopFile
    • pyspark.RDD.saveAsNewAPIHadoopDataset
    • pyspark.RDD.saveAsNewAPIHadoopFile
    • pyspark.RDD.saveAsPickleFile
    • pyspark.RDD.saveAsSequenceFile pyspark.RDD.saveAsTextFile
  • DataFrame save
    • pyspark.sql.DataFrame.save
    • pyspark.sql.DataFrameWriter.save
    • pyspark.sql.DataFrame.saveAsParquetFile
    • pyspark.sql.DataFrame.saveAsTable
    • pyspark.sql.DataFrameWriter.saveAsTable

最后但并非最不重要......