标签: apache-spark
在拥有5个从属,1个驱动程序和1个主服务器的群集的火花中,当从一个位置而不是从hadoop群集读取文件时会发生什么。是整个文件是由驱动程序读取然后它将文件切成块并将其发送到每个从属或它告诉从属设备去位置并选择说20%的文件和第二个奴隶来选择接下来的20%和等等。