应用错误收集

如何确保每个Spark DataFrame分区不超过给定大小（MB）的数据

时间：2016-03-26 19:32:08

标签： apache-spark

在一个spark数据帧操作中，我发现每个任务的输入大小（MB）变化很大。有些任务的大小接近1GB，而其他任务的大小为15MB。较高的输入大小导致执行程序丢失。

我知道调整 spark.yarn.executor.memoryOverhead 会使它在某些时候起作用。但我想知道，有什么方法可以重新分区DataFrame，以便每个分区的大小不超过给定的大小（MB）。

1 个答案:

答案 0 :(得分：0)

您需要明确确保分区本身的大小正确。这是 partiion-time 任务，而不是运行时/任务执行时间。选项包括：

增加分区数量。这是一种钝器/蛮力方法：你最终会得到更多你想要的分区 - 即使这可能是任何输入源都可行的。但是处理许多额外的分区实际上并非所有坏。它为处理添加了一小部分额外时间。
更好的方法。仔细考虑数据如何分区并可能对其进行改进以避免偏差。这可能需要额外的处理步骤来重新分区或更改分组。

再一次，这不能在任务执行时修复：它需要重新处理数据分发 - 因为它以它使用的分区的形式呈现给Spark调度程序发送给工人。

相关问题

Spark RDD：改变每个分区的大小

如何在spark中的每个分区中对数据进行排序？

如何确保每个Spark DataFrame分区不超过给定大小（MB）的数据

Impala无法识别分区值具有嵌入引用的分区

每个数据帧分区Spark 2.0的第一个元素

基于特定列对Spark Dataframe进行分区，并将每个分区的内容转储到csv上

Spark：查找RDD的每个分区大小

如何使用scala / spark在DataFrame中按顺序执行每个分区？

如何确保RDD的每个分区都有一些数据

16个任务（1048.5 MB）的序列化结果总大小大于spark.driver.maxResultSize（1024.0 MB）

最新问题

我写了这段代码，但我无法理解我的错误

我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？

是否有可能使 loadstring 不可能等于打印？卢阿

java中的random.expovariate()

Appscript 通过会议在 Google 日历中发送电子邮件和创建活动

为什么我的 Onclick 箭头功能在 React 中不起作用？

在此代码中是否有使用“this”的替代方法？

在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化

每千个数字得到

更新了城市边界 KML 文件的来源？