我们有一个很大的数据集,我们使用spark来查询。
我们正在考虑将JSON字符串存储在一列中,这实际上是一些属性的属性包。
问题:在对存储为JSON(而不是单个列)的这些属性运行聚合查询时,我们将面临任何重大的性能影响吗?
我担心如果使用JSON对象字符串,我们将失去一些高效的列压缩/编码的好处。
例如
column1 | column2
-----------------
1 | {"property1":2,"property2":3}
vs。
column1 | property1 | property2
--------------------------------
1 | 2 | 3