我想将非结构化数据转换为结构化数据以便于数据分析,因此我想知道PIG或HIVE是否是最佳的。如果不是可以使用哪种其他Hadoop工具以及如何使用?
答案 0 :(得分:0)
根据我的经验,最简洁,但静态类型且非常灵活的是Scalding。它功能强大,简洁实用。
Scalding是一个开源的Twitter项目,位于Cascading之上。级联位于Hadoop之上。级联的作用是采用用户定义的阶段,并将它们神奇地“级联”为尽可能少的MapReduce阶段。
这个页面几乎证明了Scalding是最好的Hadoop API:
https://github.com/twitter/scalding/wiki/Rosetta-Code
Spark(技术上不是Hadoop技术,它实际上要好得多)现在有一个神奇的JsonRDD - 你给它一个JSON文件,它会神奇地计算出这个方案。