我知道spark会在内存计算中完成并且比MapReduce快得多。 我想知道说唱记录的效果如何? 10000? 我有大量的文件(每个文件有大约10000条记录,比如100列文件)进入我的hadoop数据平台,我需要在加载到hbase之前执行一些数据质量检查。
我在hive中进行数据质量检查,后端使用MapReduce。对于每个文件大约需要8分钟,这对我来说非常糟糕。 火花会给我一个更好的表现,比方说2-3分钟?
我知道我必须做一个替补标记,但在我真正开始使用火花之前,我试图了解这里的基础知识。 因为我记得第一次创建RDD将是一个开销,因为我必须为每个传入的文件创建一个新的RDD,这将花费我一点。
我很困惑这对我来说是最好的方法 - 火花,钻,风暴或Mapreduce本身?