应用错误收集

希望该练习对刚接触Hadoop和火花的其他人有用。

这通常是一个普遍的问题，但是在hadoop集群中（我们运行20台服务器），其中12台包含spark资源。运行spark作业时，该作业是否在包含spark的所有节点上运行，还是由资源主服务器（纱线服务器）决定在哪个（哪个）代码上运行。

我也对火花所在的烟囱感到困惑。 spark是否在实际的数据节点上运行？例如，用户在应用程序级别运行一些python代码，创建一个spark实例，该实例连接到hdfs /资源主服务器，然后在实际节点上运行此代码？

提前谢谢