我有一个ADLS,其中有几个文件夹,这些文件夹又包含子文件夹,依此类推,直到其中包含CSV或Parquet数据为止。
如何使用数据砖中的文件格式获取此文件夹中的文件夹名称和子文件夹?还有一些我根本不想考虑的垃圾文件夹,例如Folder123,Folder_dummy等。
请提出建议。
答案 0 :(得分:0)
您可以在不知道所有可能的文件夹名称的地方添加通配符。例如,如果您想从嵌套路径查询实木复合地板文件,则可以使用它,
select * from parquet.`{Your ADLS folder}/*/{SomeSpecificFolder}/{your parquet}.parquet`
只要知道要查询的实木复合地板,并且可以单独使用Databricks / Spark SQL赋予该名称,您就可以使用通配符任何扩展名