无法在Spark Kubernetes集群模式下读取本地文件

时间:2019-11-26 09:32:21

标签: scala file apache-spark kubernetes server

在Spark Cluster模式程序中读取存储在系统中的文件时遇到问题。这给我一个错误,提示“找不到文件”,但是文件存在于定义的位置。请提出一些建议,以便我可以使用kubernetes读取spark集群中的本地文件。

1 个答案:

答案 0 :(得分:1)

当您在Kubernetes上提交Spark时,您不能在机器上引用本地文件。

针对您的情况的可用解决方案可能是:

  • 使用Resource staging server。在Apache Spark代码库的主分支中不可用,因此整个集成都在您身边。
  • 将文件放入http / hdfs可访问位置:请参考docs
  • 将文件放入Spark Docker映像中,并将其称为local:///path/to/your-file.jar

如果您正在运行Minikube之类的本地Kubernetes集群,则还可以使用您感兴趣的文件创建一个Kubernetes卷,并将其安装到Spark Pod:请参考docs。确保将该卷安装到驱动程序和执行器上。