应用错误收集

使用groupBy时spark是否会进行本地聚合？

时间：2017-06-20 13:41:58

标签： apache-spark

我知道rdd.groupByKey()将所有事情都洗牌，然后继续进行后续操作。因此，如果您需要对行进行分组并对其进行转换，groupByKey将对所有数据进行混洗，然后才进行转换。在还原变换和具有相同分组键的大量行的情况下，这是低效的，因为在具有局部减少的混洗之前，每个分区内的行数可以大大减少。 datset.groupBy()行为相同吗？

我正在使用Spark 1.6

0 个答案:

没有答案

在Scala中进行Spark编程时是否使用了var？
当使用mapPartitions时，binaryFiles何时加载到内存中？
如何在Spark中组合并聚合列并创建嵌套的Json
使用groupBy时spark是否会进行本地聚合？
spark.sql.Dataset.groupByKey是否支持groupBy之类的窗口操作？
使用Spark Local模式时运行了多少个JVM？
Spark数据帧groupBy并进一步计算聚合
Spark：groupBy如何重新分区数据
当不运行本地模式时，spark-nlp addFile不支持本地目录
在pyspark中，是否可以使用1个groupBy进行2个聚合？

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？