应用错误收集

使用spark指定分区大小

时间：2017-07-28 10:10:19

标签： scala apache-spark rdd

我正在使用spark来处理大文件，我有12个分区。我有rdd1和rdd2我在它们之间进行连接，而不是选择（rdd3）。我的问题是，我咨询过最后一个分区比其他分区太大，从分区1到分区11 45000 recodrs但是分区12 9100000 recodrs。所以我分了9100000 / 45000 =~ 203。我将我的rdd3重新分配到214(203+11) 但我最后的分区仍然太大了。我如何平衡分区的大小？

我自己编写自定义分区程序？

1 个答案:

答案 0 :(得分：1)

我有rdd1和rdd2我在他们之间进行连接

join是最昂贵的操作是Spark。为了能够通过键加入，您必须随机播放值，如果键不均匀分布，则会得到描述的行为。在这种情况下，自定义分区程序无法帮助您。

我会考虑调整逻辑，因此不需要完全连接。

如何在Dataproc集群上指定/检查分区数
使用Spark分区
spark的合并功能是否会尝试创建统一大小的分区？
合并时Spark分区大小
Spark sc parallelize指定分区数
使用spark指定分区大小
Spark分区 - 分区大小
Spark，无法获得带有分区的创建表，但是没有分区有效
Hive分区到Spark分区
如何为结构化查询的不同代码部分指定分区数？

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？