Question

我试图在我的Spark应用程序中从Postgresql获取数据，但是现在我很困惑如何在我的Docker映像中安装postgresql驱动程序。我还尝试将postgresql作为apt-get install命令安装，如下所述（Dockerfile）。

Dockerfile：

FROM python:3


ENV SPARK_VERSION 2.3.2
ENV SPARK_HADOOP_PROFILE 2.7
ENV SPARK_SRC_URL https://www.apache.org/dist/spark/spark-$SPARK_VERSION/spark-${SPARK_VERSION}- 
bin-hadoop${SPARK_HADOOP_PROFILE}.tgz
ENV SPARK_HOME=/opt/spark
ENV PATH $PATH:$SPARK_HOME/bin

RUN wget ${SPARK_SRC_URL}
RUN tar -xzf spark-${SPARK_VERSION}-bin-hadoop${SPARK_HADOOP_PROFILE}.tgz

RUN mv spark-${SPARK_VERSION}-bin-hadoop${SPARK_HADOOP_PROFILE} /opt/spark
RUN rm -f spark-${SPARK_VERSION}-bin-hadoop${SPARK_HADOOP_PROFILE}.tgz
RUN apt-get update && \
apt-get install -y openjdk-8-jdk-headless \
 postgresql && \
rm -rf /var/lib/apt/lists/*
ENV JAVA_HOME  /usr/lib/jvm/java-8-openjdk-amd64/

COPY requirements.txt ./
RUN pip install --no-cache-dir -r requirements.txt


COPY my_script.py ./
CMD [ "python", "./my_script.py" ]

requirements.txt： pyspark == 2.3.2 numpy

my_script.py：

from pyspark import SparkContext
from pyspark import SparkConf

#spark conf
conf1 = SparkConf()
conf1.setMaster("local[*]")
conf1.setAppName('hamza')
print(conf1)
sc = SparkContext(conf = conf1)
print('hahahha')

from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)
print(sqlContext)

from pyspark.sql import DataFrameReader
url = 'postgresql://IP:PORT/INSTANCE'
properties = {'user': 'user', 'password': 'pass'}
df = DataFrameReader(sqlContext).jdbc(
url='jdbc:%s' % url, table=query, properties=properties
)

遇到此错误：

Traceback (most recent call last):
  File "./my_script.py", line 26, in <module>
, properties=properties
  File "/usr/local/lib/python3.7/site-packages/pyspark/sql/readwriter.py", line 527, in jdbc
  return self._df(self._jreader.jdbc(url, table, jprop))
  File "/usr/local/lib/python3.7/site-packages/py4j/java_gateway.py", line 1257, in __call__
answer, self.gateway_client, self.target_id, self.name)
  File "/usr/local/lib/python3.7/site-packages/pyspark/sql/utils.py", line 63, in deco
return f(*a, **kw)
  File "/usr/local/lib/python3.7/site-packages/py4j/protocol.py", line 328, in get_return_value
format(target_id, ".", name), value)
       py4j.protocol.Py4JJavaError: An error occurred while calling o28.jdbc.
   : java.sql.SQLException: No suitable driver
    at java.sql.DriverManager.getDriver(DriverManager.java:315)

请指导我如何设置此驱动程序谢谢

Answer 1

这不是Docker的处理方式。 Docker的方法不是将所有服务都放在一个容器中，而是将它们分成几个容器，每个容器应该有一个主进程，例如数据库，您的应用程序等。

此外，在使用单独的容器时，您不必担心在Dockerfile中装入所有必需的内容-您只需选择具有所需数据库类型的即用型容器即可。顺便说一句，如果您使用的是python:3码头工人镜像，您怎么知道，维护人员不会更改已安装的服务集，甚至不会更改操作系统类型？他们可以轻松做到这一点，因为他们只提供“ Python”服务，其他所有内容都没有定义。

所以，我推荐的是：

将项目分解到不同的容器（Dockerfiles）
为您的数据库使用标准的postgres映像-所有服务和驱动程序已经安装
使用docker-compose（或其他任何方式）启动两个容器并将它们链接到一个网络中。

Answer 2

在Dockerfile中添加这些行解决了该问题：

ENV POST_URL https://jdbc.postgresql.org/download/postgresql-42.2.5.jar
RUN wget ${POST_URL}
RUN mv postgresql-42.2.5.jar /opt/spark/jars

谢谢大家

如何在我的Docker映像中安装postgresql？

2 个答案: