我在Hadoop上使用Apache Parquet,过了一段时间我有一个问题。当我在Spark on Hadoop上生成parquets时,它会变得相当混乱。当我说凌乱时,我的意思是Spark工作正在生成大量的镶木地板文件。当我尝试查询它们时,我正在处理大量时间查询,因为Spark正在将所有文件合并在一起。
你能告诉我正确的处理方式,或者我可能会错过它们吗?你已经处理好了,你是如何解决它的?
更新1: 将这些文件合并到一块实木复合地板中是否有一些“副作用”足够好?什么尺寸的镶木地板文件优先使用,一些上下边界?