为什么Spark Driver读取本地文件

时间:2017-03-10 14:20:17

标签: python apache-spark cluster-computing luigi

我使用Spark Cluster Standalone。

主服务器和单个从服务器位于同一服务器(服务器B)中。

我使用Luigi(在服务器A上)提交我的应用程序并部署(客户端模式)。

我的应用程序读取服务器B上的本地文件。但是,应用程序也尝试读取服务器A上的文件。为什么?

sc.textFile('/path/to/the/file/*')

1 个答案:

答案 0 :(得分:2)

在客户端模式下,驱动程序在与提交应用程序的客户端相同的进程中启动。

但是,在群集模式下,驱动程序是从群集内的一个Worker进程启动的。

您应该使用群集模式。