从SSD加载大数据集

时间:2018-04-24 08:09:12

标签: apache-spark spark-dataframe apache-spark-dataset

我们得到一组recordids [~200k] - 对应于记录的详细信息将从SSD(~400G)加载以进行分析和聚合。

由于我们是Spark的新手,以下是我们的查询:

  1. 我们是否将输入ID输入到指定了x个分区的单个火花驱动程序?驱动程序是否会负责通过网络读取和传输与每个分区相对应的数据?

  2. 是否可以指示工作节点读取与其各自分区对应的范围的数据,以防止从驱动程序通过线路传输数据?

1 个答案:

答案 0 :(得分:0)

永远不要将大数据加载到驱动程序中。 Spark会在对数据集进行分区后读取各个worker的数据。 看一下加载csv文件的一些例子