在Hadoop集群配置上运行Spark

时间:2019-04-26 02:35:47

标签: apache-spark hadoop

希望该练习对刚接触Hadoop和火花的其他人有用。

这通常是一个普遍的问题,但是在hadoop集群中(我们运行20台服务器),其中12台包含spark资源。运行spark作业时,该作业是否在包含spark的所有节点上运行,还是由资源主服务器(纱线服务器)决定在哪个(哪个)代码上运行。

我也对火花所在的烟囱感到困惑。 spark是否在实际的数据节点上运行?例如,用户在应用程序级别运行一些python代码,创建一个spark实例,该实例连接到hdfs /资源主服务器,然后在实际节点上运行此代码?

提前谢谢

0 个答案:

没有答案