应用错误收集

DataFrame --- join / groupBy-agg - 分区

时间：2017-07-11 21:10:12

标签： apache-spark join group-by apache-spark-sql spark-dataframe

我可能对join / groupBy-agg有一个天真的问题。在RDD期间，每当我想表演时一个。 groupBy-agg，我曾经说过reduceByKey（PairRDDFunctions）和一个可选的Partition-Strategy（分区数或分区数）湾join（of PairRDDFunctions）及其变体，我曾经有办法提供多个分区

在DataFrame中，如何在此操作期间指定分区数？我可以在事后使用repartition（）。但这将是工作中的另一个阶段。

在连接期间增加分区/任务数量的一种方法是设置＆＃39; spark.sql.shuffle.partitions＆＃39;在spark-submit期间它有一些所需的数字。我试图看看有没有办法以编程方式为groupBy-agg / join的每一步提供这个？

以编程方式执行此操作的原因是，根据数据框的大小，我可以使用更多或更少的任务来避免OutOfMemoryError。

1 个答案:

答案 0 :(得分：0)

AFAIK您无法在每个步骤指定多个分区，但是：

Spark会尝试重新使用现有分区（如果存在），因此如果您在执行groupBy之前重新分区，它应该使用您指定的任意数量的分区（假设您＆＃39;当然重新使用相同的键）。对于连接，如果两个数据帧都使用相同的键（必须是连接键）进行分区，则相同。相同的分区数量，它不会重新洗牌。

否则你确实可以调整spark.sql.shuffle.partitions

相关问题

Spark groupBy agg没有按预期工作

使用groupby和agg为条形图准备数据框

Apache Spark Dataframe Groupby agg（）用于多列

DataFrame --- join / groupBy-agg - 分区

使用multiindex和multi agg列在groupby上进行nlargest

Spark GroupBy agg collect_list多列

Pandas groupby agg std NaN

带join的groupby agg无法产生预期的输出

如何编写pyspark groupby agg函数来进行字符串比较

数据块：数据框分组汇总，收集器集包含重复值

最新问题

我写了这段代码，但我无法理解我的错误

我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？

是否有可能使 loadstring 不可能等于打印？卢阿

java中的random.expovariate()

Appscript 通过会议在 Google 日历中发送电子邮件和创建活动

为什么我的 Onclick 箭头功能在 React 中不起作用？

在此代码中是否有使用“this”的替代方法？

在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化

每千个数字得到

更新了城市边界 KML 文件的来源？