我在三角洲湖中保存了一个数据框,下面是命令:
df2.write.format("delta").mode("overwrite").partitionBy("updated_date").save("/delta/userdata/")
我还可以加载并查看三角洲湖/ userdata:
dfres=spark.read.format("delta").load("/delta/userdata")
但是在这里,我有一个疑问,例如当我将多个实木复合地板文件从blob移到delta lake创建数据帧时,那么其他人将如何知道我已移走了哪个文件以及他如何在这些delta上工作,有没有命令列出数据块中三角洲湖泊中的所有数据框?
答案 0 :(得分:0)
将问题分解为:
找到要检查的所有表的路径。默认位置的托管表存储在spark.conf.get("spark.sql.warehouse.dir") + s"/$tableName"
中。如果您有外部表,则最好使用catalog.listTables()
后跟catalog.getTableMetadata(ident).location.getPath
。任何其他路径都可以直接使用。
使用DeltaTable.isDeltaTable(path)
确定哪些路径属于Delta表。
希望这会有所帮助。