应用错误收集

我正在尝试从存储不同HDFS目录的大量镶木地板文件中创建dask数据帧。我尝试过两种方法，但两种方法似乎需要很长时间。

方法1：使用glob路径调用api read_parquet。例如：

dd.read_parquet("some path/**/*.parquet")

方法2：从每个目录创建dask数据帧，然后在所有数据帧的列表上调用dd.concat。对于每个目录：

dd.read_parquet("some path/dirx/*.parquet")

然后结束：

dd.concat([list of df from each dir],interleave_partitions=True)

在这两种方法中，创建数据帧需要很长时间。

请建议阅读这些镶木地板文件的最佳方法。