Question

我想将一个巨大的pyspark数据框保存为Hive表。我如何有效地做到这一点？我希望使用 pyspark.sql.DataFrameWriter.saveAsTable 中的 saveAsTable（name，format = None，mode = None，partitionBy = None，** options）。

# Let's say I have my dataframe, my_df
# Am I able to do the following?
my_df.saveAsTable('my_table')

我的问题是我可以使用哪些格式，在哪里可以自己找到这些信息？是否可以选择OrcSerDe？我仍在学习。谢谢。

Answer 1

因此，我能够使用 pyspark.sql.DataFrameWriter 将pyspark数据帧写入压缩的Hive表中。为此，我必须执行以下操作：

my_df.write.orc('my_file_path')

成功了。

https://spark.apache.org/docs/1.6.0/api/python/pyspark.sql.html#pyspark.sql.DataFrame.write

我正在使用pyspark 1.6.0 btw

Answer 2

支持以下文件格式。

文本
csv
ldap
json
镶木地板
兽人

推荐人： https://github.com/apache/spark/blob/master/sql/core/src/main/scala/org/apache/spark/sql/DataFrameWriter.scala

我可以将pyspark数据框另存为哪种文件格式？

2 个答案: