应用错误收集

我们有一个很大的数据集，我们使用spark来查询。

我们正在考虑将JSON字符串存储在一列中，这实际上是一些属性的属性包。

问题：在对存储为JSON（而不是单个列）的这些属性运行聚合查询时，我们将面临任何重大的性能影响吗？

我担心如果使用JSON对象字符串，我们将失去一些高效的列压缩/编码的好处。

例如

column1 | column2
-----------------
1       | {"property1":2,"property2":3}

vs。

column1 | property1 | property2
--------------------------------
1       | 2         | 3