我有几百亿/十亿(10 ^ 9)个数据输入集需要处理。 他们很安静小< 1kB的。他们需要大约1秒钟来处理。
我已经阅读了很多关于Apache Hadoop,Map Reduce和StarCluster的内容。 但我不确定最有效和最快的方法是什么,处理它?</ p>
我正在考虑使用Amazon EC2或类似的云服务。
答案 0 :(得分:3)
您可能会考虑Amazon EMR之类的东西来处理Hadoop的大量管道工作。如果你只是想快速编写代码,hadoop流,hive和PIG都是开始使用hadoop的好工具,不需要知道MapReduce的所有细节。