hadoop和spark之间有什么区别

时间:2015-07-08 08:05:31

标签: hadoop apache-spark

随着市场火花越来越大,我现在可以看到Spark的主要用例如Hadoop:

  1. 机器学习中的迭代算法
  2. 交互式数据挖掘和数据处理
  3. Spark是一个完全与Apache Hive兼容的数据仓库系统 可以比Hive快100倍。
  4. 流处理:实时流中的日志处理和欺诈检测 用于警报,汇总和分析
  5. 传感器数据处理:从中提取和加入数据的位置 多个来源,内存数据集真的很有用,因为它们很容易 并且快速处理。
  6. 我的问题是:

    1. 未来几天火花会取代Hadoop吗?
    2. Hadoop同时工作,而spark并行运行?(是真的吗?)

2 个答案:

答案 0 :(得分:5)

Spark与hadoop的不同之处在于,您可以在一个工具中集成数据提取,处理和实时分析。此外,火花图减少框架不同于标准的hadoop map减少因为在火花中间图减少结果被缓存,并且如果需要重用相同的结果,RDD(对于故障容忍的分布式集合的abstarction)可以保存在存储器中(迭代的alghoritms,group by等等。)

我的回答非常肤浅,并没有完全回答你的问题,只是指出了一些主要的区别(实际上更多) Spark和databricks官方网站的文档非常详细,您的问题已在那里得到解答:

https://databricks.com/spark/about

http://spark.apache.org/faq.html

答案 1 :(得分:3)

Hadoop今天是一系列技术,但实质上它是一个分布式文件系统(HDFS)和一个分布式资源管理器(YARN)。 Spark是一个分布式计算框架,准备取代Map / Reduce - 另一个分布式计算框架

  1. 曾经是Hadoop的同义词
  2. 带有开箱即用的Hadoop以实现向后兼容(在YARN map / reduce支持框架是Hadoop的资源管理框架之前)
  3. 具体来说 - Spark不会取代Hadoop,但可能取代map / reduce和Hadoop,map / reduce和spark都是分布式系统(并行运行)