我正在浏览spark文档,发现下面的行
Hadoop MapReduce,与Spark的地图和归约操作没有直接关系
1。您能否帮助我了解火花映射减少与hadoop映射减少有何不同?
答案 0 :(得分:0)
网络上有很多资源可用于说明Hadoop MapReduce和Spark MapReduce之间的差异,您仍然可以通过这些资源进行说明,但是,在下面,我指出了关键的不同之处,以便您可以有所了解:
现在,让我们跳到第二个问题。弹性分布式数据集(RDD)是Spark的基本数据结构。它是对象的不可变分布式集合。 RDD中的每个数据集都分为逻辑分区,可以在群集的不同节点上进行计算。 RDD可以包含任何类型的Python,Java或Scala对象,包括用户定义的类。 因此,在Spark中,对RDD执行了两项操作(转化,操作) 除非执行Action操作,否则逻辑不会被执行,这就是为什么它被称为惰性求值