创建DataFrame后,我可以将其保存为avro,csv或镶木地板格式。
在dataframe或rdd中是否还有其他格式可用于在Hadoop HDFS中保存数据?
答案 0 :(得分:2)
Hadoop分布式文件系统(HDFS™):一种分布式文件系统,可提供对应用程序数据的高吞吐量访问。
通过这种方式,您可以使用HDFS以任何格式存储虚拟文件,包括avro,CSV,镶木地板等。
在Spark中,您可以使用format方法指定DataFrame的格式,而使用save方法指定存储中的位置。
format(source:String):DataFrameWriter [T] 指定基础输出数据源。内置选项包括“镶木地板”,“json”等。
save(path:String):Unit 将DataFrame的内容保存在指定的路径中。
您还可以使用快捷方式使用特定格式的方法(如json(path: String)
,parquet(path: String)
或类似方法)定义存储上DataFrame的格式和路径。
答案 1 :(得分:0)
最后但并非最不重要......