Question

我有一个空的Hive表。我有18个作业正在运行，每个作业可能都有一个数据框，需要将其与镶木文件一起添加到Hive表中。

我所拥有的是这样的：

df2.write.parquet(SOME_HDFS_DIR/my_table_dir)

但这似乎不太正确。我是否必须添加一些.parquet文件名并每次都附加它？我已经看到一些语法是Scala而不是Python。

Answer 1

df.write.parquet将覆盖该位置的实木复合地板文件，但带有选项，

df.write.mode('append').parquet('path')

然后它将在路径中创建一个新的镶木地板文件，以便您可以从表中读取数据。