标签: apache-spark
让我们说我们有一个输入文件的RDD。在我们分析(一个漫长且昂贵的过程)之后,它们变成了需要比较的大件物品,例如,每件物品的大小都是一件大事。我们想使用Spark拆分此任务,我们有大约1000个或更多这样的项目。我们该怎么做呢?
基本上,问题是,如果我们有N=1000+个项目,每个项目的权重为Size=1000MB+,那么我们如何将其拆分为10个左右的块,并将工作拆分为Spark?
N=1000+
Size=1000MB+