随着市场火花越来越大,我现在可以看到Spark的主要用例如Hadoop:
我的问题是:
答案 0 :(得分:5)
Spark与hadoop的不同之处在于,您可以在一个工具中集成数据提取,处理和实时分析。此外,火花图减少框架不同于标准的hadoop map减少因为在火花中间图减少结果被缓存,并且如果需要重用相同的结果,RDD(对于故障容忍的分布式集合的abstarction)可以保存在存储器中(迭代的alghoritms,group by等等。)
我的回答非常肤浅,并没有完全回答你的问题,只是指出了一些主要的区别(实际上更多) Spark和databricks官方网站的文档非常详细,您的问题已在那里得到解答:
答案 1 :(得分:3)
Hadoop今天是一系列技术,但实质上它是一个分布式文件系统(HDFS)和一个分布式资源管理器(YARN)。 Spark是一个分布式计算框架,准备取代Map / Reduce - 另一个分布式计算框架
具体来说 - Spark不会取代Hadoop,但可能取代map / reduce和Hadoop,map / reduce和spark都是分布式系统(并行运行)