避免在Spark中进行块/批处理

时间:2018-03-05 16:19:31

标签: apache-spark partitioning large-data

在我们的Big Data Spark集群中无法完全处理这些步骤时,我经常会遇到批量划分大处理步骤的模式。

例如,我们有一个大的交叉连接或一些微积分在完成所有输入数据时失败,然后我们通常将这些spark任务分成块,以便完成spark mini任务。

特别是我怀疑这是在Spark中做到这一点的正确方法。

有没有解决这个问题的方法?或者甚至使用Spark,我们再次处理分块/批处理工作的旧方式,以便可以在一个小集群中完成工作?

这仅仅是重新分区输入数据的问题,以便Spark可以进行更多顺序处理而不是并行处理吗?

0 个答案:

没有答案