我们在Mesos 0.17上针对CDH5运行Spark 0.9.1。到目前为止,我们继续使用CDH系列的'mr1'版本,以便我们可以在较小的文件上运行filecrush项目。出于各种原因,我们希望能够自由升级到MR-2。
在Hadoop的map / reduce之外是否存在任何工具?我们今天使用的filecrush库是非常重要的,因此将模式转换为Spark似乎并不简单。
答案 0 :(得分:0)
MR1代码通常无需更改(或极少数),可以重新编译MR2库。这不起作用吗?这可能非常简单。
你不会直接将它翻译成Spark,但是通过映射一堆文件并使用不同的分区输出结果,你可以很容易地实现类似的效果。您可能遇到的问题与Spark将要使用HDFS及其InputFormat
来将您的数据读入分割一样,这就是您的问题开始时的问题。