应用错误收集

我正在处理充满.parquet文件的文件系统。列之一“ id”唯一标识一台机器。我能够使用pyspark在某个目录路径中打开所有.parquet文件，然后从“ id”列创建值的set（[]）。我想打开所有其他文件中的所有其他行，其中的“ id”与先前计算的集中的值之一匹配。

我能够通过pyspark做到这一点，但是它非常复杂，需要我实例化本地spark服务器。我正在尝试找到一种通过pyarrow进行此操作的方法，但似乎read_pandas / read方法的“ filters”参数只能对分区数据进行过滤，而不能对任意列数据进行过滤。

有没有办法实现我在这里寻找的东西？我无法打开整个数据集，然后使用Python过滤掉'id'不匹配的行，因为它不适合内存。