互联网上有很多材料正在比较RDD和DataFrame, 但几乎所有人都只提到Dataframe可以执行额外的优化,因为数据帧有额外的架构信息。
但是,几乎所有这些都没有解释Dataframe具有RDD没有的其他架构信息意味着什么,以及Dataframe在技术上如何工作以带来这种性能提升。
说,我们有一个RDD [Person],不知道RDD知道它的元素类型是Person吗?我不认为RDD [Person]的信息少于DataFrame(这是Dataset [Person] ])将用于执行优化。