JSON列与列的Spark性能影响

时间:2019-01-25 21:19:28

标签: performance apache-spark optimization encoding compression

我们有一个很大的数据集,我们使用spark来查询。

我们正在考虑将JSON字符串存储在一列中,这实际上是一些属性的属性包。

问题:在对存储为JSON(而不是单个列)的这些属性运行聚合查询时,我们将面临任何重大的性能影响吗?

我担心如果使用JSON对象字符串,我们将失去一些高效的列压缩/编码的好处。

例如

column1 | column2
-----------------
1       | {"property1":2,"property2":3}

vs。

column1 | property1 | property2
--------------------------------
1       | 2         | 3

0 个答案:

没有答案