该选项存在于Spark中,我看到pyarrow的write_table()
接受** kwargs,但是在跟踪.pyx
之后,我无法将其跟踪到最小值/最大值之类的东西。
是否支持此功能,如果可以,如何实现?
答案 0 :(得分:1)
pyarrow
已经默认写入Parquet文件的最小/最大统计信息。 pyarrow
中没有选项,因为基础parquet-cpp
库始终将其写入。在撰写本文时,仅写入min和max。无法提供其他统计信息,也无法使用parquet-cpp
即时计算其他统计信息。当您需要它们时,应该在(Py)Arrow's issue tracker中打开一个问题,并考虑提供缺少的代码。