Spark Ingestion path:" Source to Driver to Worker"或"来源于工人"

时间:2017-08-07 22:59:29

标签: apache-spark

当Spark摄取数据时,是否存在必须通过驱动程序然后从驱动程序工作的特定情况?同样的问题适用于工人的直接阅读。

我想我只是试图找出导致这种或那种方式的条件或情况,以及在每种情况下如何进行分区。

1 个答案:

答案 0 :(得分:1)

如果您将自己局限于内置方法,那么除非您使用以下方法从本地方法创建分布式数据结构:

  • SparkSession.createDataset
  • SparkContext.parallelize

数据始终由工作人员直接访问,但数据分发的详细信息因源而异。

RDD通常依赖于Hadoop输入格式,但Spark SQL和数据源API至少部分独立,至少在配置方面是这样,

并不意味着数据始终是正确分布的。在某些情况下(JDBC,流接收器),数据仍然可以通过单个节点进行管道传输。