将数据加载到配置单元中,然后使用hcatalogue从pig中分析它。这似乎是个好主意吗?

时间:2016-04-08 01:17:49

标签: hive apache-pig hcatalog

让我们说我们有JSON数据,我们希望为商业用户生成一些结果。所以以下似乎是好方法吗?
将数据从HDFS加载到配置单元中,然后使用hcatalog从pig中分析它。在这方面,我有以下问题 问:从hcatalog加载数据并将其分析到pig是否可以,与通过将其保存到HDFS中直接从pig读取数据相比,这会产生性能开销。

1 个答案:

答案 0 :(得分:0)

我个人更喜欢使用Pig进行ETL。在你的情况下,JSON数据可以使用JsonLoader加载,并且可以使用JsonStorage存储。所以我会使用Jsonloader加载数据然后将它们存储在csv中。然后我会使用Hive分析这些数据。

JSON加载

http://joshualande.com/read-write-json-apache-pig/

替代方案我们可以使用twitter elephantbird json loader

http://eric.lubow.org/2011/hadoop/pig-queries-parsing-json-on-amazons-elastic-map-reduce-using-s3-data/