应用错误收集

破坏HDFS中的小文件

时间：2014-04-16 02:57:09

标签： hadoop hdfs apache-spark cloudera-cdh

我们在Mesos 0.17上针对CDH5运行Spark 0.9.1。到目前为止，我们继续使用CDH系列的'mr1'版本，以便我们可以在较小的文件上运行filecrush项目。出于各种原因，我们希望能够自由升级到MR-2。

在Hadoop的map / reduce之外是否存在任何工具？我们今天使用的filecrush库是非常重要的，因此将模式转换为Spark似乎并不简单。

1 个答案:

答案 0 :(得分：0)

MR1代码通常无需更改（或极少数），可以重新编译MR2库。这不起作用吗？这可能非常简单。

你不会直接将它翻译成Spark，但是通过映射一堆文件并使用不同的分区输出结果，你可以很容易地实现类似的效果。您可能遇到的问题与Spark将要使用HDFS及其InputFormat来将您的数据读入分割一样，这就是您的问题开始时的问题。