在不同目录中从镶木地板文件(HDFS)创建dask数据帧的最佳方法

时间:2018-03-22 07:21:36

标签: dask dask-distributed fastparquet

我正在尝试从存储不同HDFS目录的大量镶木地板文件中创建dask数据帧。我尝试过两种方法,但两种方法似乎需要很长时间。

方法1:使用glob路径调用api read_parquet。例如:

dd.read_parquet("some path/**/*.parquet")

方法2:从每个目录创建dask数据帧,然后在所有数据帧的列表上调用dd.concat。 对于每个目录:

dd.read_parquet("some path/dirx/*.parquet")

然后结束:

dd.concat([list of df from each dir],interleave_partitions=True)

在这两种方法中,创建数据帧需要很长时间。

请建议阅读这些镶木地板文件的最佳方法。

0 个答案:

没有答案