在yarn-client模式和yarn-cluster模式下运行类似代码时遇到一些问题。我在客户端模式下运行时代码执行完美,但在纱线群集节点上运行时代码失败。
它抛出一个文件而不是文件异常,说明找不到pyspark.zip文件。对此有任何见解都会有所帮助。
答案 0 :(得分:4)
在纱线群集模式下,驱动程序在Application Master(在YARN容器内)中运行。在纱线客户端模式下,它在客户端运行。
在纱线群集模式下,不支持spark-shell。
回到你的问题:你使用的是哪个版本的Spark?在1.4以下的版本中,在纱线中运行pyspark目前仅限于纱线客户端模式(参见SPARK-5162)