我正在寻找元数据表,该表包含spark sql和delta lake中的所有列名称,表名称,创建时间戳。我需要能够按给定的列名进行搜索,并列出所有具有该列名的表。
答案 0 :(得分:0)
这在基准Spark中不存在。为此,您需要创建一个内部ABaC流程,该流程会在流程运行时收集特定的元数据。对于最后一次更新时间,您可以在运行“ hadoop fs -ls”命令时解析hadoop中对象的时间戳;列名称将需要在输入“ show create table”时递归运行“ hive -e”,然后解析出页眉和页脚;要获取所有表名,请使用以前的策略,但要运行“显示表”。如果您拥有运行所有代码的强大的Yarn服务器,则可以获取作业的开始和结束时间,但通常这是工作的噩梦。