如何使用柱子扩展现有的镶木地板会影响黑斑羚/火花的性能?

时间:2018-04-03 14:12:44

标签: apache-spark parquet impala

我有一个现成的镶木地板文件设置,正在从impala和spark中查询。

我打算在镶木地板上添加约30个相对“重”的柱子。 每列都会存储一个结构数组。每个结构可以有5到20个字段。一个数组可能有几千个结构。

理论上,镶木地板是一个柱状存储 - 用列扩展它不应该影响现有查询的性能(因为它们没有触及这些列)。

  • 这个前提是否正确?
  • 我应该注意做什么?
  • 一般来说,在决定“宽度”时需要考虑哪些因素 镶木地板文件(即列数)?

0 个答案:

没有答案