RDD和DataFrame / Dataset之间的真正区别

时间:2018-04-03 06:15:07

标签: apache-spark

互联网上有很多材料正在比较RDD和DataFrame, 但几乎所有人都只提到Dataframe可以执行额外的优化,因为数据帧有额外的架构信息。

但是,几乎所有这些都没有解释Dataframe具有RDD没有的其他架构信息意味着什么,以及Dataframe在技术上如何工作以带来这种性能提升。

说,我们有一个RDD [Person],不知道RDD知道它的元素类型是Person吗?我不认为RDD [Person]的信息少于DataFrame(这是Dataset [Person] ])将用于执行优化。

0 个答案:

没有答案