希望该练习对刚接触Hadoop和火花的其他人有用。
这通常是一个普遍的问题,但是在hadoop集群中(我们运行20台服务器),其中12台包含spark资源。运行spark作业时,该作业是否在包含spark的所有节点上运行,还是由资源主服务器(纱线服务器)决定在哪个(哪个)代码上运行。
我也对火花所在的烟囱感到困惑。 spark是否在实际的数据节点上运行?例如,用户在应用程序级别运行一些python代码,创建一个spark实例,该实例连接到hdfs /资源主服务器,然后在实际节点上运行此代码?
提前谢谢