当Spark摄取数据时,是否存在必须通过驱动程序然后从驱动程序工作的特定情况?同样的问题适用于工人的直接阅读。
我想我只是试图找出导致这种或那种方式的条件或情况,以及在每种情况下如何进行分区。
答案 0 :(得分:1)
如果您将自己局限于内置方法,那么除非您使用以下方法从本地方法创建分布式数据结构:
SparkSession.createDataset
SparkContext.parallelize
数据始终由工作人员直接访问,但数据分发的详细信息因源而异。
RDD通常依赖于Hadoop输入格式,但Spark SQL和数据源API至少部分独立,至少在配置方面是这样,
并不意味着数据始终是正确分布的。在某些情况下(JDBC,流接收器),数据仍然可以通过单个节点进行管道传输。