应用错误收集

Spark Job估计较小数据集的开销

时间：2017-06-24 00:13:15

标签： apache-spark

是否有rules of thumb - 当数据大小足以抵消火花处理所需的开销时？

我正在处理1到1千万条记录。每条记录带有5个Long个ID;和一小部分（少于5000个字符）的文本。

工作量是创建报告 - 所以过滤;小组和聚合。在多数情况下;顶级聚合将覆盖所有记录;所以在报告生成的某个时刻 - 我没有一个好的分区键可以使用。

意识到细节问题很少;但这是否会让我在Spark中做很多愚蠢的事情？或者会激发职业编排可能会增加这种开销;我最好只想在更大的数据集上使用Spark？

由于

1 个答案:

答案 0 :(得分：0)

我遇到的最丰富的文档是

Spark can efficiently support tasks as short as 200 ms https://spark.apache.org/docs/2.1.0/tuning.html