Apache Spark与Apache Hadoop

时间:2018-09-07 10:06:26

标签: apache-spark hadoop

考虑相同的字数示例,因为Apache Spark更快,因为它在内存而不是磁盘中进行计算

A。对于类似的工作,Apache Spark的Java Heap Memory需求大约是Apache Hadoop的两倍吗(字数示例)

B。如果Apache Hadoop比Apache Spark稳定,为什么人们会选择Apache Spark

1 个答案:

答案 0 :(得分:-1)

Apache Spark的内存要求取决于您使用的数据。用最简单的术语来说,Spark是内存引擎。这意味着所需的内存量取决于您正在处理的数据以及Spark程序的设计方式。

Spark是大数据的绝佳平台。但是,它不能替代所有类型的大数据处理。这完全取决于。一家公司之所以选择Hive(作为示例)而不是Spark,仅仅是因为它对经过测试和验证的Hive程序进行了大量投资。

包括Spark在内的大多数系统都是基于Hadoop构建的,这仅仅是因为Hadoop可以工作并且具有庞大的生态系统。 Spark只是Hadoop的一个附加组件。在这种情况下,我认为您将MapReduce与Hadoop混淆了。

您的问题没有真正的答案。这仅取决于您要完成什么,要如何完成它以及可用的资源(人员和计算资源)。