Question

我正在使用spark avro创建数据框，如

dataframe.write.format("com.databricks.spark.avro").save(outputPath)

我的输出路径就像 hdfs path + table_name + partitio n

表table_name已使用AvroSerDe在hive中创建，其中LOCATION设置为outputPath。

但是，当我从hive执行select * for table_name时，创建的数据框不可见。可能是什么问题

Answer 1

这里发生的事情是.save没有更新Hive Metastore，因此您的查询中无法看到新数据。

您可以尝试使用dataframe.write().mode(SaveMode.Append).partitionBy("partition").saveAsTable("table_name")将数据附加到表格中。

Answer 2

ALTER表ADD PARTITION修复了问题