在Kubernetes上运行Spark2.3,远程依赖于S3

时间:2018-04-29 16:32:55

标签: apache-spark kubernetes

我正在运行spark-submit以在Kubernetes(Spark 2.3)上运行。我的问题是,InitContainer如果指定为s3a://路径,则不会下载我的jar文件,但如果我将我的jar放在HTTP服务器上并使用http://,则可以正常工作。当然,火花驱动程序失败了,因为它无法找到我的类(并且jar文件实际上不在图像中)。

我尝试了两种方法:

  1. 指定jar的s3a路径作为spark-submit和
  2. 的参数
  3. 使用--jars指定jar文件在s3a上的位置,但两者都以相同的方式失败。
  4. 编辑:同样,使用local:///home/myuser/app.jar不能使用相同的症状。

    在失败的运行(对s3a的依赖)上,我登录到容器并发现目录/ var / spark-data / spark-jars /为空。 init-container日志不表示任何类型的错误。

    问题:

    1. 在S3A上指定远程依赖项的正确方法是什么?
    2. S3A尚不支持吗?只有http(s)?
    3. 有关如何进一步调试InitContainer以确定未发生下载的原因的任何建议?

0 个答案:

没有答案