如果存在这种可能性,通常最好将半结构化数据转换为Hadoop上的结构化数据吗?

时间:2016-07-25 14:40:29

标签: hadoop data-structures bigdata database

我在Hadoop集群上的JSON文件中拥有大量且不断增长的半结构化数据集。这些数据相当温和,但是其中一个包含地图列表的键可能会在很大程度上发生变化,它可能会在零到几千个地图之间变化,每个地图都有几十个密钥。

但是,数据可以转换为由外键链接的两个单独的结构化数据表。两者都是狭窄的表格,其中一张大约是另一张的十倍。

我可以将数据保存为半结构化格式,并使用像HBase这样的宽列存储来存储它,或者使用像Parquet这样的列式存储将数据存储在两个大的关系表中。

数据格式不太可能发生变化,但不能排除。

我是Hadoop和大数据的新手,所以这两种可能性中的哪一种通常更可取?如果存在可能性并且数据格式相当稳定,是否应将半结构化数据转换为结构化数据?

编辑:Rahul Sharma要求的其他信息。

数据包含购物软件中的购物车,可变长度来自购物车中可变数量的商品。最初数据是XML格式,但后来转换为JSON,但不是我,我无法控制这一步。

没有计划实时分析,只有批量分析。

两个表中的关系是一个表是客户/购买信息,而另一个表是购买的商品。两者都会用一个合适的钥匙链接。

我希望这会有所帮助。

0 个答案:

没有答案