我们得到一组recordids
[~200k] - 对应于记录的详细信息将从SSD(~400G)加载以进行分析和聚合。
由于我们是Spark的新手,以下是我们的查询:
我们是否将输入ID输入到指定了x
个分区的单个火花驱动程序?驱动程序是否会负责通过网络读取和传输与每个分区相对应的数据?
是否可以指示工作节点读取与其各自分区对应的范围的数据,以防止从驱动程序通过线路传输数据?
答案 0 :(得分:0)
永远不要将大数据加载到驱动程序中。 Spark会在对数据集进行分区后读取各个worker的数据。 看一下加载csv文件的一些例子