应用错误收集

时间：2014-09-12 23:14:31

标签： python amazon-ec2 bigdata amazon-sqs

我目前正在为我遇到的问题寻找最佳解决方案+环境。我稍微简化了问题，但基本上是：

我得出的结论是，使用MapReduce的Amazon EMR不是一个很好的解决方案。我正在寻找一个大数据解决方案，它擅长处理大量输入文件并对文件执行规则匹配操作，输出每个文件的判定。可能必须使用ec2。

编辑：澄清上面的2

答案 0 :(得分：1)

Hadoop问题是当你收到大量没有与CombineFileInput格式结合的文件时，会降低工作效率。

Spark似乎没有这个问题，我已经完成了1000个文件中的10个并且输出10个1000个文件的问题。没有试图真正推动极限，不确定是否有一个！