我正在学习火花,并对此产生了疑问。
可以说我有100 GB的文件需要处理。因此,我创建了一个RDD并将其分为三部分。因此,三个RDD将在各自的节点上以大输入文件中的数据集并行执行。到目前为止很好..!
如果一部分数据(超出100GB)正在节点1中执行,则节点2上的B,节点3上的C。
只想知道,它是一个非常大的文件,那么如何在三个节点之间分配数据。例如,从大文件到节点1的数据集,从B到节点3的数据集,再到C到节点3的一组数据,它是明智地读取记录还是它如何工作?
请帮助我理解..!
谢谢
答案 0 :(得分:0)
不确定我是否理解了这个问题...
从输入数据中读取火花“分裂”。根据数据在源路径上的分区方式确定的拆分数。可以是200之类的随机数,也可以是按国家/地区划分的世界范围内的国家/地区数。
将数据读入rdds时,分区将分布在您的节点之间。它将从每个分区中提取所有数据。