WARN客户端:同一路径资源文件:///tmp/programs95923.zip是否多次添加到分布式缓存很重要?

时间:2019-03-21 18:37:05

标签: apache-spark pyspark

我们在Amazon EMR中运行着一个大型Apache Spark应用程序。我试图摆脱日志文件中的所有警告消息。

当我们的应用程序启动时,我们制作该程序的Python源代码的ZIP文件,将其放在一个名为(程序)95923.zip的ZIP文件中,并将ZIP文件与spark-submit一起提供给--files $ZIPFILE参数(其中$ZIPFILE是我们创建的ZIP文件。

嗯。看来我们也正在使用spark-submit--py-files $ZIPFILE提供ZIPFILE。我不确定为什么我们要提供两次;我没有写所有这些代码。

问题:

  1. 此警告重要吗?
  2. 我们应该只提供--files还是--py-files而不同时提供两者?

1 个答案:

答案 0 :(得分:0)

在官方的Spark documentation中写道:

  

对于Python应用程序,只需将.py文件替换为    而不是JAR,然后添加Python .zip,.egg或.py   文件到带有--py-files的搜索路径。

因此,仅--py-files $ZIPFILE参数应该足够。

更新:

正如@ vy32已经提到的,该消息似乎是从Spark YARN客户端在第437行出现的:

https://github.com/apache/spark/blob/master/resource-managers/yarn/src/main/scala/org/apache/spark/deploy/yarn/Client.scala

另外,由于未将新资源未添加到当前资源列表(distributedUris)中,因此特定警告也不会影响执行,请检查第436-446行。因此,特定的 warning 将没有任何警告会影响Spark作业的正常执行。