如果数据集适合内存,Spark会发挥最佳效果,如果数据集不适合,它将使用磁盘,因此它与hadoop一样快。 我们假设我正在处理Tera / Peta字节的数据。用一个小集群。显然,没有办法让它适合记忆。 我的观察是,在大数据时代,大多数数据集都是Giga字节,如果不是更多。
内存处理引擎的好处是什么?
答案 0 :(得分:1)
我发现Spark相对于Hadoop的MapReduce的优势不仅仅是in-memory computation engine
甚至来自磁盘的输入。据我所知,至少有两个重大进步:
DAG execution engine
超过了MapReduce的two phase execution
Thread level parallel execution
超过Process level parallel execution
详细说明: