hadoop - 使用Hadoop将非结构化数据转换为结构化数据 - Thinbug

使用Hadoop将非结构化数据转换为结构化数据

时间：2014-06-17 10:07:51

标签： hadoop

我想将非结构化数据转换为结构化数据以便于数据分析，因此我想知道PIG或HIVE是否是最佳的。如果不是可以使用哪种其他Hadoop工具以及如何使用？

1 个答案:

答案 0 :(得分：0)

根据我的经验，最简洁，但静态类型且非常灵活的是Scalding。它功能强大，简洁实用。

Scalding是一个开源的Twitter项目，位于Cascading之上。级联位于Hadoop之上。级联的作用是采用用户定义的阶段，并将它们神奇地“级联”为尽可能少的MapReduce阶段。

这个页面几乎证明了Scalding是最好的Hadoop API：

https://github.com/twitter/scalding/wiki/Rosetta-Code

Spark（技术上不是Hadoop技术，它实际上要好得多）现在有一个神奇的JsonRDD - 你给它一个JSON文件，它会神奇地计算出这个方案。