应用错误收集

Spark Ingestion path：＆＃34; Source to Driver to Worker＆＃34;或＆＃34;来源于工人＆＃34;

时间：2017-08-07 22:59:29

标签： apache-spark

当Spark摄取数据时，是否存在必须通过驱动程序然后从驱动程序工作的特定情况？同样的问题适用于工人的直接阅读。

我想我只是试图找出导致这种或那种方式的条件或情况，以及在每种情况下如何进行分区。

1 个答案:

答案 0 :(得分：1)

如果您将自己局限于内置方法，那么除非您使用以下方法从本地方法创建分布式数据结构：

SparkSession.createDataset
SparkContext.parallelize

数据始终由工作人员直接访问，但数据分发的详细信息因源而异。

RDD通常依赖于Hadoop输入格式，但Spark SQL和数据源API至少部分独立，至少在配置方面是这样，

并不意味着数据始终是正确分布的。在某些情况下（JDBC，流接收器），数据仍然可以通过单个节点进行管道传输。