我有一个空的Hive表。我有18个作业正在运行,每个作业可能都有一个数据框,需要将其与镶木文件一起添加到Hive表中。
我所拥有的是这样的:
df2.write.parquet(SOME_HDFS_DIR/my_table_dir)
但这似乎不太正确。我是否必须添加一些.parquet
文件名并每次都附加它?我已经看到一些语法是Scala而不是Python。
答案 0 :(得分:0)
df.write.parquet
将覆盖该位置的实木复合地板文件,但带有选项,
df.write.mode('append').parquet('path')
然后它将在路径中创建一个新的镶木地板文件,以便您可以从表中读取数据。