我生成了一个.egg
文件。现在,我想在本地Windows上使用spark-submit
命令运行Spark应用程序。我有Spark版本2.1.1
spark-submit --py-files local:///C:/git_local/sparkETL/dist/sparkETL-0.1-py3.6.egg driver.py
spark-submit --py-files local:///C:/git_local/sparkETL/dist/sparkETL-0.1-py3.6.egg driver.py
这是我正在尝试的代码,但出现错误:
File not found(c:\spark\bin\driver.py)
当spark-submit
已打包在.egg
内时,为什么.egg
试图在本地路径上查找文件?我读取的jar
文件与jar
类似,因此我假设就像在spark-submit
文件的情况下一样,我们传递类名来运行ListView
。现在,我传递的是主要文件driver.py,但它不起作用。
答案 0 :(得分:1)
在这种情况下spark-submit始终需要python文件才能运行(特别是driver.py),py-file只是要附加到spark作业的库,可能在driver.py内部使用。
如果要使其正常运行,请确保driver.py存在于您触发火花提交的当前位置。或将其更改为local:/// C:/git_local/sparkETL/driver.py