我怎么能Dockeries一个包含spark依赖的python脚本?

时间:2018-02-26 09:21:33

标签: python-3.x docker pyspark dockerfile

我有一个Python文件,我尝试导入Spark库。 当我使用Docker文件构建它时,它给了我错误' JAVA_HOME'没有设定。 我试图通过Docker文件安装Java,但它也给出了错误。 下面是我试图执行的Dockerfile。

FROM python:3.6.4
RUN apt-get update && \
    apt-get upgrade -y && \
    apt-get install -y  software-properties-common && \
    add-apt-repository ppa:webupd8team/java -y && \
    apt-get update && \
    echo oracle-java7-installer shared/accepted-oracle-license-v1-1 select true | /usr/bin/debconf-set-selections && \
    apt-get install -y oracle-java8-installer && \
    apt-get clean 

ENV JAVA_HOME /usr/lib/jvm/java-8-oracle

ADD Samplespark.py /
COPY Samplespark.py /opt/ml/Samplespark.py

RUN pip install pandas
RUN pip install numpy
RUN pip install pyspark
RUN pip install sklearn
RUN pip install sagemaker_pyspark
RUN pip install sagemaker

CMD [ "python", "./Samplespark.py" ]

ENTRYPOINT ["python","/opt/ml/Samplespark.py"]

请帮我在Docker中安装PySpark的Java依赖项。

0 个答案:

没有答案