应用错误收集

从SSD加载大数据集

时间：2018-04-24 08:09:12

标签： apache-spark spark-dataframe apache-spark-dataset

我们得到一组recordids [~200k] - 对应于记录的详细信息将从SSD（~400G）加载以进行分析和聚合。

由于我们是Spark的新手，以下是我们的查询：

我们是否将输入ID输入到指定了x个分区的单个火花驱动程序？驱动程序是否会负责通过网络读取和传输与每个分区相对应的数据？
是否可以指示工作节点读取与其各自分区对应的范围的数据，以防止从驱动程序通过线路传输数据？

1 个答案:

答案 0 :(得分：0)

永远不要将大数据加载到驱动程序中。 Spark会在对数据集进行分区后读取各个worker的数据。看一下加载csv文件的一些例子