直到dask 2.2.0 read_parquet过滤器参数在pyarrow引擎中似乎不再起作用

时间:2019-08-28 07:24:02

标签: dask parquet pyarrow

当我将dask从2.1.0升级到2.2.0(或2.3.0)时,以下代码更改了其行为并像以前一样停止了对实木复合地板文件的过滤。 仅适用于pyarrow引擎(fastparquet引擎仍然可以很好地过滤)。

我在Dask 2.2.0和2.3.0上尝试了pyarrow 0.13.1、0.14.0和0.14.1,但没有成功。

我以前的工作设置是:使用Pyarrow 0.14.1的Dask 2.1.0

此代码适用于pyarrow引擎

import dask.dataframe as dd
dd.read_parquet(directory, engine='pyarrow', filters=[(('DatePart', '>=', '2018-01-14'))])

需要注意的是,fastparquet引擎的等效代码必须删除一个列表级别->仍然可以在fastparquet中使用

import dask.dataframe as dd
dd.read_parquet(directory, engine='fastparquet', filters=[('DatePart', '>=', '2018-01-14')])

我的实木复合地板存储区由'DatePart'与现有的_metadata文件进行了分区。

现在,使用pyarrow引擎不再过滤结果数据帧。没有错误消息。

1 个答案:

答案 0 :(得分:0)

听起来您正在尝试报告错误。我建议在https://github.com/dask/dask/issues/new

报告错误

请参阅https://docs.dask.org/en/latest/support.html#asking-for-help,以获取有关Dask开发人员更喜欢在哪里查看问题的更多信息。