Databricks-无法从DataFrame写入Delta位置

时间:2019-05-06 14:14:33

标签: scala apache-spark databricks delta-lake

我想更改Databricks Delta表的列名。

所以我做了以下事情:

// Read old table data
val old_data_DF = spark.read.format("delta")
.load("dbfs:/mnt/main/sales")

// Created a new DF with a renamed column
val new_data_DF = old_data_DF
      .withColumnRenamed("column_a", "metric1")
      .select("*")

// Dropped and recereated the Delta files location
dbutils.fs.rm("dbfs:/mnt/main/sales", true)
dbutils.fs.mkdirs("dbfs:/mnt/main/sales")

// Trying to write the new DF to the location
new_data_DF.write
.format("delta")
.partitionBy("sale_date_partition")
.save("dbfs:/mnt/main/sales")

在这里,写Delta时最后一步出现错误:

java.io.FileNotFoundException: dbfs:/mnt/main/sales/sale_date_partition=2019-04-29/part-00000-769.c000.snappy.parquet
A file referenced in the transaction log cannot be found. This occurs when data has been manually deleted from the file system rather than using the table `DELETE` statement

显然,数据已删除,很可能我错过了上述逻辑中的某些内容。现在,唯一包含数据的位置是new_data_DF。 写入dbfs:/mnt/main/sales_tmp之类的位置也会失败

我应该怎么做才能将数据从new_data_DF写入Delta位置?

2 个答案:

答案 0 :(得分:1)

通常,最好避免在Delta表上使用rm。 Delta的事务日志可以在大多数情况下防止最终的一致性问题,但是,当您在很短的时间内删除并重新创建表时,不同版本的事务日志可能会忽隐忽现。

相反,我建议使用Delta提供的事务原语。例如,要overwrite the data in a table,您可以:

df.write.format("delta").mode("overwrite").save("/delta/events")

如果您的表已经损坏,则可以使用FSCK对其进行修复。

答案 1 :(得分:1)

您可以按照以下方式进行操作。

// Read old table data
val old_data_DF = spark.read.format("delta")
.load("dbfs:/mnt/main/sales")

// Created a new DF with a renamed column
val new_data_DF = old_data_DF
  .withColumnRenamed("column_a", "metric1")
  .select("*")

// Trying to write the new DF to the location
new_data_DF.write
.format("delta")
.mode("overwrite") // this would overwrite the whole data files
.option("overwriteSchema", "true")  //this is the key line.
.partitionBy("sale_date_partition")
.save("dbfs:/mnt/main/sales")

OverWriteSchema选项将使用我们在转换过程中更新的最新架构创建新的物理文件。