应用错误收集

Spark数据集上的GroupbyKey

时间：2017-06-08 14:23:50

标签： apache-spark sparkcore

groupByKey是否会导致整个网络中所有值的混乱，即使它们已经位于分区内，当我们按照sparkSQL中的操作进行分组时，它是否使用groupbykey还是使用aggregateByKey来提高性能？

1 个答案:

答案 0 :(得分：0)

如果密钥全部位于每个分区内，则

groupByKey不会对数据进行随机播放。但那是一种罕见的情况。

groupBy中的{p> sparkSQL操作是aggregateByKey，这使其成为聚合操作。我们可以在groupBy中的sparkSQL之后定义聚合函数。 groupBy只需为每个组和每个聚合创建一个Aggregation Expressions实例，然后浏览数据并不断更新这些表达式

Spark groupByKey澄清
groupBykey in spark
Spark数据集中的groupByKey
Spark数据集上的GroupbyKey
Spark数据集：数据集<tuple2> Java的Reduce，Agg，Group或GroupByKey
groupByKey vs重新分区表现
Spark数据集中的groupByKey，沿聚合
使用列火花groupByKey
如何在多个RDD上使用groupByKey（）？
Spark Dataset API groupByKey KeyValueGroupedDataset

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？