标签: apache-spark
我对Apache Spark中使用的内存几乎没有疑问。
1)如果我们从硬盘驱动器读取,I / O操作非常慢,这就是为什么如果我们将数据放入内存然后可以非常快速地访问它。
在这一点上我的问题是,首先一切都在硬盘中,当火花开始时,数据进入内存以便从硬盘操作并且当它完成后返回到硬盘。所以First和Last指向硬盘然后如何节省Spark中的完整周期?如果我错了,请纠正我。
2)RDD是内存中存在的数据集吗?在外行人看来。!!