我目前正在为我遇到的问题寻找最佳解决方案+环境。我稍微简化了问题,但基本上是:
我得出的结论是,使用MapReduce的Amazon EMR不是一个很好的解决方案。我正在寻找一个大数据解决方案,它擅长处理大量输入文件并对文件执行规则匹配操作,输出每个文件的判定。可能必须使用ec2。
编辑:澄清上面的2
答案 0 :(得分:1)
Hadoop问题是当你收到大量没有与CombineFileInput格式结合的文件时,会降低工作效率。
Spark似乎没有这个问题,我已经完成了1000个文件中的10个并且输出10个1000个文件的问题。没有试图真正推动极限,不确定是否有一个!