我正在尝试从存储不同HDFS目录的大量镶木地板文件中创建dask数据帧。我尝试过两种方法,但两种方法似乎需要很长时间。
方法1:使用glob路径调用api read_parquet。例如:
dd.read_parquet("some path/**/*.parquet")
方法2:从每个目录创建dask数据帧,然后在所有数据帧的列表上调用dd.concat。 对于每个目录:
dd.read_parquet("some path/dirx/*.parquet")
然后结束:
dd.concat([list of df from each dir],interleave_partitions=True)
在这两种方法中,创建数据帧需要很长时间。
请建议阅读这些镶木地板文件的最佳方法。