我们在Amazon EMR中运行着一个大型Apache Spark应用程序。我试图摆脱日志文件中的所有警告消息。
当我们的应用程序启动时,我们制作该程序的Python源代码的ZIP文件,将其放在一个名为(程序)95923.zip的ZIP文件中,并将ZIP文件与spark-submit
一起提供给--files $ZIPFILE
参数(其中$ZIPFILE
是我们创建的ZIP文件。
嗯。看来我们也正在使用spark-submit
向--py-files $ZIPFILE
提供ZIPFILE。我不确定为什么我们要提供两次;我没有写所有这些代码。
问题:
--files
还是--py-files
而不同时提供两者?答案 0 :(得分:0)
在官方的Spark documentation中写道:
对于Python应用程序,只需将.py文件替换为 而不是JAR,然后添加Python .zip,.egg或.py 文件到带有--py-files的搜索路径。
因此,仅--py-files $ZIPFILE
参数应该足够。
更新:
正如@ vy32已经提到的,该消息似乎是从Spark YARN客户端在第437行出现的:
另外,由于未将新资源未添加到当前资源列表(distributedUris)中,因此特定警告也不会影响执行,请检查第436-446行。因此,特定的 warning 将没有任何警告会影响Spark作业的正常执行。