并行处理云中的小功能

时间:2012-07-24 19:31:19

标签: hadoop parallel-processing cloud starcluster

我有几百亿/十亿(10 ^ 9)个数据输入集需要处理。 他们很安静小< 1kB的。他们需要大约1秒钟来处理。

我已经阅读了很多关于Apache Hadoop,Map Reduce和StarCluster的内容。 但我不确定最有效和最快的方法是什么,处理它?<​​/ p>

我正在考虑使用Amazon EC2或类似的云服务。

1 个答案:

答案 0 :(得分:3)

您可能会考虑Amazon EMR之类的东西来处理Hadoop的大量管道工作。如果你只是想快速编写代码,hadoop流,hive和PIG都是开始使用hadoop的好工具,不需要知道MapReduce的所有细节。