Mapreduce与Spark Vs Storm Vs Drill - 对于小文件

时间:2015-08-15 18:58:47

标签: hadoop apache-spark hive apache-storm apache-drill

我知道spark会在内存计算中完成并且比MapReduce快得多。 我想知道说唱记录的效果如何? 10000? 我有大量的文件(每个文件有大约10000条记录,比如100列文件)进入我的hadoop数据平台,我需要在加载到hbase之前执行一些数据质量检查。

我在hive中进行数据质量检查,后端使用MapReduce。对于每个文件大约需要8分钟,这对我来说非常糟糕。 火花会给我一个更好的表现,比方说2-3分钟?

我知道我必须做一个替补标记,但在我真正开始使用火花之前,我试图了解这里的基础知识。 因为我记得第一次创建RDD将是一个开销,因为我必须为每个传入的文件创建一个新的RDD,这将花费我一点。

我很困惑这对我来说是最好的方法 - 火花,钻,风暴或Mapreduce本身?

1 个答案:

答案 0 :(得分:1)

我正在探索 Drill vs Spark vs Hive 在数百万条记录中的表现。莳萝&在我的情况下,Spark两者都强5-10倍我没有对具有大量RAM的群集执行任何性能测试,我只是在单个节点上进行了测试)快速计算 - 它们都执行内存计算。

钻头和钻头的性能在我的情况下,火花几乎可比。所以,我不能说哪一个更好。你需要在最后尝试这个。

钻孔测试不会花费太多时间。 Download地图上的最新演练install hadoop群集,添加hive-storage plugin并执行query