应用错误收集

如何在Spark中创建更多分区而不会导致混乱

时间：2016-10-21 14:22:05

标签： scala apache-spark

基本上我的用例是这样的，在第一阶段，我只能有几个分区，因为每个任务都运行一个C程序，需要多达10 GB的内存。但是，我稍后会使用RangePartitioner。但是在前一阶段中只有很少的分区，RangePartitioner在执行后缀时会抛出内存错误。这是一个众所周知的事实，当你的分区太少时，Spark会在洗牌过程中抛出内存错误。

现在，我想要的是简单地将已存在的分区划分为更多分区。基本上，与Spark中的联合相反。如果我使用分区器，例如HashPartitioner，它显然会导致shuffle，我想避免。那么，我怎样才能做到这一点？

1 个答案:

答案 0 :(得分：3)

目前还没有。您可以跟踪相关的JIRA票证：https://issues.apache.org/jira/browse/SPARK-5997

Spark：增加分区数量而不会导致shuffle？
如何在Spark中成对合并分区？
Spark Streaming：如何为DStream添加更多分区？
Spark合并更多分区
Spark中的分区越多越好吗？
如何在Spark中创建更多分区而不会导致混乱
删除没有随机Spark的重复项
如何清理Spark shuffle文件？
为什么dataset.count导致shuffle！（火花2.2）
如何制作比我拥有的线程更多的分区？

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？