应用错误收集

如何确保从Parquet加载Spark DataFrame是分布式和并行化的？

时间：2016-11-01 16:01:45

标签： apache-spark apache-spark-sql spark-dataframe parquet

当Spark将源数据从文件加载到DataFrame时，哪些因素决定数据是完全加载到单个节点（很可能是驱动程序/主节点）上的内存中还是计算所需的最小并行子集中（大概是在工人/执行者节点上？？

特别是，如果使用Parquet作为输入格式并通过Spark DataFrame API加载，需要考虑哪些因素以确保从Parquet文件加载并行化并延迟到执行程序，并且范围限于列有问题的执行程序节点上的计算需要什么？

（我希望了解Spark用于在分布式执行计划中安排源数据加载的机制，以避免因加载完整数据集而耗尽任何一个节点上的内存。）

1 个答案:

答案 0 :(得分：1)

只要您使用spark操作，所有数据转换和聚合仅在执行程序上进行。因此不需要驱动程序加载数据，其工作是管理处理流程。驱动程序仅在您使用某些终端操作时获取数据，例如collect()，first()，show()，toPandas()，toLocalIterator()等。此外，执行程序不会将所有文件内容加载到内存中，而是获取最小的可能块（称为分区）。

如果使用Parquet等列存储格式，则只加载执行计划所需的列 - 这是spark中的默认行为。

编辑：我刚看到spark中可能存在错误，如果您在架构中使用嵌套列，则可能会加载不必要的列，请参阅：Why does Apache Spark read unnecessary Parquet columns within nested structures?