应用错误收集

时间：2017-12-21 11:15:44

标签： hadoop apache-spark hdfs apache-spark-sql

创建DataFrame后，我可以将其保存为avro，csv或镶木地板格式。

在dataframe或rdd中是否还有其他格式可用于在Hadoop HDFS中保存数据？

答案 0 :(得分：2)

Hadoop分布式文件系统（HDFS™）：一种分布式文件系统，可提供对应用程序数据的高吞吐量访问。

通过这种方式，您可以使用HDFS以任何格式存储虚拟文件，包括avro，CSV，镶木地板等。

在Spark中，您可以使用format方法指定DataFrame的格式，而使用save方法指定存储中的位置。

format（source：String）：DataFrameWriter [T] 指定基础输出数据源。内置选项包括“镶木地板”，“json”等。

save（path：String）：Unit 将DataFrame的内容保存在指定的路径中。

您还可以使用快捷方式使用特定格式的方法（如json(path: String)，parquet(path: String)或类似方法）定义存储上DataFrame的格式和路径。

答案 1 :(得分：0)

最后但并非最不重要......