我没有任何RDD可供使用,我只想在我的集群的某些节点上使用Apache Spark执行我自己的一些功能。所以我没有任何数据要分发,只有代码(取决于执行它的节点)。
有可能吗? Spark是否符合这个目标?
答案 0 :(得分:1)
有可能吗?
我认为这是可能的,而且我已经被问过几次了(所以有时间考虑它:))
Spark是否与此目标兼容?
Spark可以处理它的方法是启动尽可能多的执行程序,以便为分布式工作使用节点。这是集群管理器将工作分散到节点集群的工作,因此Spark只能使用给定的节点。
通过分配节点,您只需对假数据集执行计算,即可在。
之上构建RDD如果计算在不应使用的节点上运行,您可以在代码中hostname
查看您所在的节点并决定是继续还是停止。
你甚至可以从数据库中读取要执行的代码(看过这样的解决方案)。