我们已经创建了一个包含两个服务器的mesos集群。服务器配置为8GB RAM,每个2核。我们正在尝试运行带有在其中一台服务器上运行的驱动程序的spark streaming Job,并将该作业提交给也在其中一台服务器上运行的mesos master。
在Mesos UI中,我们可以看到两个代理已向Mesos master注册。
当我们运行流式作业时,我们只能看到在给定时间点只有一个任务“活动”,而我们还可以看到许多任务正在排队。
我们正在使用kafka 0.10.1.0
和spark 2.0.2
作为spark DirectStreams
并运行一批5秒钟。
我们的理解是,如果我们考虑每个服务器有两个执行程序,那么至少应该有两个活动任务。如果这种理解是正确的,请告诉我们。
我们还观察到大多数任务仅在一台服务器上完成,服务器2的份额非常少,例如比例大约为4:1。为什么两个服务器上的任务分配不均匀?