我已经通过conda install pyspark
在Ubuntu的miniconda环境中安装了pyspark。到目前为止,一切正常,我可以通过spark-submit
运行作业,也可以在localhost:4040
检查运行的作业。但是我找不到start-history-server.sh
,需要查看已完成的工作。
应该位于{spark}/sbin
中,其中{spark}
是spark的安装目录。我不确定通过conda安装spark时应该在哪里,但是我已经搜索了整个miniconda目录,但似乎找不到start-history-server.sh
。就其价值而言,这适用于python 3.7和2.7环境。
我的问题是:cons安装的pyspark中是否包含start-history-server.sh
?
如果是,在哪里?如果不是,那么在事后评估火花作业的推荐替代方法是什么?
答案 0 :(得分:1)
编辑:我已提交拉取请求,以将历史记录服务器脚本添加到pyspark。拉取请求已合并,因此应暂时显示在Spark 3.0中。
@pedvaljim在评论中指出,这不是特定于conda的,pyspark根本不包含目录sbin
。
好消息是,可以手动将这个文件夹from github下载到您的spark文件夹中(即不确定如何下载一个目录,我只是克隆了所有spark)。如果您使用的是mini-或anaconda,则spark文件夹为例如miniconda3/envs/{name_of_environment}/lib/python3.7/site-packages/pyspark
。