PySpark-将数据帧写入Hive表

时间:2020-08-05 20:10:05

标签: python dataframe pyspark hive parquet

我有一个空的Hive表。我有18个作业正在运行,每个作业可能都有一个数据框,需要将其与镶木文件一起添加到Hive表中。

我所拥有的是这样的:

df2.write.parquet(SOME_HDFS_DIR/my_table_dir)

但这似乎不太正确。我是否必须添加一些.parquet文件名并每次都附加它?我已经看到一些语法是Scala而不是Python。

1 个答案:

答案 0 :(得分:0)

df.write.parquet将覆盖该位置的实木复合地板文件,但带有选项,

df.write.mode('append').parquet('path')

然后它将在路径中创建一个新的镶木地板文件,以便您可以从表中读取数据。