通过conda

时间:2019-01-29 10:36:20

标签: apache-spark pyspark conda miniconda spark-ui

我已经通过conda install pyspark在Ubuntu的miniconda环境中安装了pyspark。到目前为止,一切正常,我可以通过spark-submit运行作业,也可以在localhost:4040检查运行的作业。但是我找不到start-history-server.sh,需要查看已完成的工作。

应该位于{spark}/sbin中,其中{spark}是spark的安装目录。我不确定通过conda安装spark时应该在哪里,但是我已经搜索了整个miniconda目录,但似乎找不到start-history-server.sh。就其价值而言,这适用于python 3.7和2.7环境。

我的问题是:cons安装的pyspark中是否包含start-history-server.sh? 如果是,在哪里?如果不是,那么在事后评估火花作业的推荐替代方法是什么?

1 个答案:

答案 0 :(得分:1)

编辑:我已提交拉取请求,以将历史记录服务器脚本添加到pyspark。拉取请求已合并,因此应暂时显示在Spark 3.0中。


@pedvaljim在评论中指出,这不是特定于conda的,pyspark根本不包含目录sbin

好消息是,可以手动将这个文件夹from github下载到您的spark文件夹中(即不确定如何下载一个目录,我只是克隆了所有spark)。如果您使用的是mini-或anaconda,则spark文件夹为例如miniconda3/envs/{name_of_environment}/lib/python3.7/site-packages/pyspark