可以用pyarrow编写实木复合地板统计信息吗?

时间:2018-09-29 20:21:47

标签: parquet pyarrow

该选项存在于Spark中,我看到pyarrow的write_table()接受** kwargs,但是在跟踪.pyx之后,我无法将其跟踪到最小值/最大值之类的东西。

是否支持此功能,如果可以,如何实现?

1 个答案:

答案 0 :(得分:1)

pyarrow已经默认写入Parquet文件的最小/最大统计信息。 pyarrow中没有选项,因为基础parquet-cpp库始终将其写入。在撰写本文时,仅写入min和max。无法提供其他统计信息,也无法使用parquet-cpp即时计算其他统计信息。当您需要它们时,应该在(Py)Arrow's issue tracker中打开一个问题,并考虑提供缺少的代码。