是否有rules of thumb
- 当数据大小足以抵消火花处理所需的开销时?
我正在处理1到1千万条记录。每条记录带有5个Long
个ID;和一小部分(少于5000个字符)的文本。
工作量是创建报告 - 所以过滤;小组和聚合。在多数情况下;顶级聚合将覆盖所有记录;所以在报告生成的某个时刻 - 我没有一个好的分区键可以使用。
意识到细节问题很少;但这是否会让我在Spark中做很多愚蠢的事情?或者会激发职业编排可能会增加这种开销;我最好只想在更大的数据集上使用Spark?
由于
答案 0 :(得分:0)
我遇到的最丰富的文档是
Spark can efficiently support tasks as short as 200 ms
https://spark.apache.org/docs/2.1.0/tuning.html