如何列出Databricks Azure中的所有增量表?

时间:2019-12-13 06:45:33

标签: apache-spark azure-databricks delta-lake

我在三角洲湖中保存了一个数据框,下面是命令:

df2.write.format("delta").mode("overwrite").partitionBy("updated_date").save("/delta/userdata/")

我还可以加载并查看三角洲湖/ userdata:

dfres=spark.read.format("delta").load("/delta/userdata")

但是在这里,我有一个疑问,例如当我将多个实木复合地板文件从blob移到delta lake创建数据帧时,那么其他人将如何知道我已移走了哪个文件以及他如何在这些delta上工作,有没有命令列出数据块中三角洲湖泊中的所有数据框?

1 个答案:

答案 0 :(得分:0)

将问题分解为:

  1. 找到要检查的所有表的路径。默认位置的托管表存储在spark.conf.get("spark.sql.warehouse.dir") + s"/$tableName"中。如果您有外部表,则最好使用catalog.listTables()后跟catalog.getTableMetadata(ident).location.getPath。任何其他路径都可以直接使用。

  2. 使用DeltaTable.isDeltaTable(path)确定哪些路径属于Delta表。

希望这会有所帮助。