应用错误收集

我在Hadoop集群上的JSON文件中拥有大量且不断增长的半结构化数据集。这些数据相当温和，但是其中一个包含地图列表的键可能会在很大程度上发生变化，它可能会在零到几千个地图之间变化，每个地图都有几十个密钥。

但是，数据可以转换为由外键链接的两个单独的结构化数据表。两者都是狭窄的表格，其中一张大约是另一张的十倍。

我可以将数据保存为半结构化格式，并使用像HBase这样的宽列存储来存储它，或者使用像Parquet这样的列式存储将数据存储在两个大的关系表中。

数据格式不太可能发生变化，但不能排除。

我是Hadoop和大数据的新手，所以这两种可能性中的哪一种通常更可取？如果存在可能性并且数据格式相当稳定，是否应将半结构化数据转换为结构化数据？

编辑：Rahul Sharma要求的其他信息。

数据包含购物软件中的购物车，可变长度来自购物车中可变数量的商品。最初数据是XML格式，但后来转换为JSON，但不是我，我无法控制这一步。

没有计划实时分析，只有批量分析。

两个表中的关系是一个表是客户/购买信息，而另一个表是购买的商品。两者都会用一个合适的钥匙链接。

我希望这会有所帮助。