标签: apache-spark parquet impala
我有一个现成的镶木地板文件设置,正在从impala和spark中查询。
我打算在镶木地板上添加约30个相对“重”的柱子。 每列都会存储一个结构数组。每个结构可以有5到20个字段。一个数组可能有几千个结构。
理论上,镶木地板是一个柱状存储 - 用列扩展它不应该影响现有查询的性能(因为它们没有触及这些列)。