假设我们在Spark中有以下代码:
dataset.write.partitionBy("c1", "c2", "c3").parquet("myDir")
我在SO上看到了几个主题,解释了如何在parquet
方法完成后获取文件或记录的数量。但是,我想要访问的是创建的分区目录的名称,即目录的数量myDir/c1=XX/c2=YY/c3=ZZ
,其中XX,YY和ZZ是与域相关的值。
我需要这些目录名的一个原因是在ETL过程之后执行数据完整性检查,并且需要知道在ETL期间创建了哪些目录(比如我的用例中的3-4个目录)。 / p>
有没有人知道是否有办法检索此信息(在Spark API级别)?