使用Hadoop将非结构化数据转换为结构化数据

时间:2014-06-17 10:07:51

标签: hadoop

我想将非结构化数据转换为结构化数据以便于数据分析,因此我想知道PIG或HIVE是否是最佳的。如果不是可以使用哪种其他Hadoop工具以及如何使用?

1 个答案:

答案 0 :(得分:0)

根据我的经验,最简洁,但静态类型且非常灵活的是Scalding。它功能强大,简洁实用。

Scalding是一个开源的Twitter项目,位于Cascading之上。级联位于Hadoop之上。级联的作用是采用用户定义的阶段,并将它们神奇地“级联”为尽可能少的MapReduce阶段。

这个页面几乎证明了Scalding是最好的Hadoop API:

https://github.com/twitter/scalding/wiki/Rosetta-Code

Spark(技术上不是Hadoop技术,它实际上要好得多)现在有一个神奇的JsonRDD - 你给它一个JSON文件,它会神奇地计算出这个方案。