我想将一个巨大的pyspark数据框保存为Hive表。我如何有效地做到这一点?我希望使用 pyspark.sql.DataFrameWriter.saveAsTable 中的 saveAsTable(name,format = None,mode = None,partitionBy = None,** options)。
# Let's say I have my dataframe, my_df
# Am I able to do the following?
my_df.saveAsTable('my_table')
我的问题是我可以使用哪些格式,在哪里可以自己找到这些信息?是否可以选择OrcSerDe?我仍在学习。谢谢。
答案 0 :(得分:1)
因此,我能够使用 pyspark.sql.DataFrameWriter 将pyspark数据帧写入压缩的Hive表中。为此,我必须执行以下操作:
my_df.write.orc('my_file_path')
成功了。
https://spark.apache.org/docs/1.6.0/api/python/pyspark.sql.html#pyspark.sql.DataFrame.write
我正在使用pyspark 1.6.0 btw
答案 1 :(得分:1)
支持以下文件格式。