我可以使用哪种大数据解决方案来处理大量输入文件?

时间:2014-09-12 23:14:31

标签: python amazon-ec2 bigdata amazon-sqs

我目前正在为我遇到的问题寻找最佳解决方案+环境。我稍微简化了问题,但基本上是:

  1. 我有大量小文件上传到Amazon S3。
  2. 我有一个规则系统,可匹配所有文件内容(包括文件名)的任何输入,然后输出对每个文件进行分类的判定。注意:我无法组合输入文件,因为我需要输入每个输入文件。
  3. 我得出的结论是,使用MapReduce的Amazon EMR不是一个很好的解决方案。我正在寻找一个大数据解决方案,它擅长处理大量输入文件并对文件执行规则匹配操作,输出每个文件的判定。可能必须使用ec2。

    编辑:澄清上面的2

1 个答案:

答案 0 :(得分:1)

Hadoop问题是当你收到大量没有与CombineFileInput格式结合的文件时,会降低工作效率。

Spark似乎没有这个问题,我已经完成了1000个文件中的10个并且输出10个1000个文件的问题。没有试图真正推动极限,不确定是否有一个!