我正在处理充满.parquet文件的文件系统。列之一“ id”唯一标识一台机器。我能够使用pyspark在某个目录路径中打开所有.parquet文件,然后从“ id”列创建值的set([])。我想打开所有其他文件中的所有其他行,其中的“ id”与先前计算的集中的值之一匹配。
我能够通过pyspark做到这一点,但是它非常复杂,需要我实例化本地spark服务器。我正在尝试找到一种通过pyarrow进行此操作的方法,但似乎read_pandas / read方法的“ filters”参数只能对分区数据进行过滤,而不能对任意列数据进行过滤。
有没有办法实现我在这里寻找的东西?我无法打开整个数据集,然后使用Python过滤掉'id'不匹配的行,因为它不适合内存。
答案 0 :(得分:1)
从0.15.0开始,pyarrow还没有此功能,但是我们(在Apache Arrow项目中)正在积极地进行这项工作,并希望将其包含在下一个主要版本中。