我可以将pyspark数据框另存为哪种文件格式?

时间:2018-09-04 13:58:27

标签: apache-spark hadoop hive pyspark hiveql

我想将一个巨大的pyspark数据框保存为Hive表。我如何有效地做到这一点?我希望使用 pyspark.sql.DataFrameWriter.saveAsTable 中的 saveAsTable(name,format = None,mode = None,partitionBy = None,** options)

# Let's say I have my dataframe, my_df
# Am I able to do the following?
my_df.saveAsTable('my_table')

我的问题是我可以使用哪些格式,在哪里可以自己找到这些信息?是否可以选择OrcSerDe?我仍在学习。谢谢。

2 个答案:

答案 0 :(得分:1)

因此,我能够使用 pyspark.sql.DataFrameWriter 将pyspark数据帧写入压缩的Hive表中。为此,我必须执行以下操作:

my_df.write.orc('my_file_path')

成功了。

https://spark.apache.org/docs/1.6.0/api/python/pyspark.sql.html#pyspark.sql.DataFrame.write

我正在使用pyspark 1.6.0 btw

答案 1 :(得分:1)

支持以下文件格式。

  • 文本
  • csv
  • ldap
  • json
  • 镶木地板
  • 兽人

推荐人: https://github.com/apache/spark/blob/master/sql/core/src/main/scala/org/apache/spark/sql/DataFrameWriter.scala