我有一个3节点集群,我试图提出一个基准测试。用例是对于应用程序,所有map函数都需要在特定的机器上运行,而所有的reduce函数都需要在另一台机器上运行。
Spark中是否有任何调度属性可以实现此目的。
答案 0 :(得分:1)
可能有一个非常糟糕的"这样做的方式。
在特定的m / c上运行Reducer更加棘手。因为你要问的是m / c B是活着的(对于数据)但不参与执行。
(Reynold Xin在2014 Spark summit期间用来解决落后者的方法显示了这种技术,但在这里我们用它来创造落后者:))
正如已经提到的,这打败了Spark的精神。你甚至不应该尝试这样做。提示:Spark!= Hadoop MR:)