hadoop - 并行处理云中的小功能 - Thinbug

并行处理云中的小功能

时间：2012-07-24 19:31:19

标签： hadoop parallel-processing cloud starcluster

我有几百亿/十亿（10 ^ 9）个数据输入集需要处理。他们很安静小＆lt; 1kB的。他们需要大约1秒钟来处理。

我已经阅读了很多关于Apache Hadoop，Map Reduce和StarCluster的内容。但我不确定最有效和最快的方法是什么，处理它？</ p>

我正在考虑使用Amazon EC2或类似的云服务。

1 个答案:

答案 0 :(得分：3)

您可能会考虑Amazon EMR之类的东西来处理Hadoop的大量管道工作。如果你只是想快速编写代码，hadoop流，hive和PIG都是开始使用hadoop的好工具，不需要知道MapReduce的所有细节。