让我们说我们有JSON数据,我们希望为商业用户生成一些结果。所以以下似乎是好方法吗?
将数据从HDFS加载到配置单元中,然后使用hcatalog从pig中分析它。在这方面,我有以下问题
问:从hcatalog加载数据并将其分析到pig是否可以,与通过将其保存到HDFS中直接从pig读取数据相比,这会产生性能开销。
答案 0 :(得分:0)
我个人更喜欢使用Pig进行ETL。在你的情况下,JSON数据可以使用JsonLoader加载,并且可以使用JsonStorage存储。所以我会使用Jsonloader加载数据然后将它们存储在csv中。然后我会使用Hive分析这些数据。
JSON加载
http://joshualande.com/read-write-json-apache-pig/
替代方案我们可以使用twitter elephantbird json loader