应用错误收集

让我们说我们有一个输入文件的RDD。在我们分析（一个漫长且昂贵的过程）之后，它们变成了需要比较的大件物品，例如，每件物品的大小都是一件大事。我们想使用Spark拆分此任务，我们有大约1000个或更多这样的项目。我们该怎么做呢？

基本上，问题是，如果我们有N=1000+个项目，每个项目的权重为Size=1000MB+，那么我们如何将其拆分为10个左右的块，并将工作拆分为Spark？