Question

我正在尝试使用pyspark连接到数据库，我使用以下代码：

sqlctx = SQLContext(sc)
df = sqlctx.load(
    url = "jdbc:postgresql://[hostname]/[database]",
    dbtable = "(SELECT * FROM talent LIMIT 1000) as blah",
    password = "MichaelJordan",
    user =  "ScottyPippen",
    source = "jdbc",
    driver = "org.postgresql.Driver"
)

我收到以下错误：

知道为什么会这样吗？

编辑：我正在尝试在我的计算机上本地运行代码。

Answer 1

以下内容适用于本地主机上的postgres：

从https://jdbc.postgresql.org/download.html下载PostgreSQL JDBC驱动程序。

对于pyspark shell，您使用SPARK_CLASSPATH环境变量：

$ export SPARK_CLASSPATH=/path/to/downloaded/jar
$ pyspark

要通过spark-submit提交脚本，请使用--driver-class-path标记：

$ spark-submit --driver-class-path /path/to/downloaded/jar script.py

在python脚本中将表加载为DataFrame，如下所示：

from pyspark.sql import DataFrameReader

url = 'postgresql://localhost:5432/dbname'
properties = {'user': 'username', 'password': 'password'}
df = DataFrameReader(sqlContext).jdbc(
    url='jdbc:%s' % url, table='tablename', properties=properties
)

或者：

df = sqlContext.read.format('jdbc').\
    options(url='jdbc:%s' % url, dbtable='tablename').\
    load()

请注意，通过spark-submit提交脚本时，您需要定义sqlContext。

Answer 2

在所有节点中都是必要的副本postgresql-42.1.4.jar ...对于我的情况，我确实复制了路径/opt/spark-2.2.0-bin-hadoop2.7/jars

另外，我在〜/ .bashrc中设置了classpath（导出SPARK_CLASSPATH =＆＃34; /opt/spark-2.2.0-bin-hadoop2.7/jars"）

在pyspark控制台和jupyter中正常工作

Answer 3

您通常需要：

在群集上安装Postgres驱动程序，
使用--jars选项
或使用--packages选项提供Postgres驱动程序的maven坐标。

如果您详细说明如何启动pyspark，我们可能会向您提供更多详细信息。

一些线索/想法：

spark-cannot-find-the-postgres-jdbc-driver

Not able to connect to postgres using jdbc in pyspark shell

Answer 4

基于quick start guide的示例构建的一种方法是this blog post，它显示了如何将--packages org.postgresql:postgresql:9.4.1211参数添加到spark-submit命令。

这会下载驱动程序into ~/.ivy2/jars目录，在我的情况下为/Users/derekhill/.ivy2/jars/org.postgresql_postgresql-9.4.1211.jar。将此作为--driver-class-path选项传递给出完整的spark-submit命令：

/usr/local/Cellar/apache-spark/2.0.2/bin/spark-submit\
 --packages org.postgresql:postgresql:9.4.1211\
 --driver-class-path /Users/derekhill/.ivy2/jars/org.postgresql_postgresql-9.4.1211.jar\
 --master local[4] main.py

在main.py：

from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

dataframe = spark.read.format('jdbc').options(
        url = "jdbc:postgresql://localhost/my_db?user=derekhill&password=''",
        database='my_db',
        dbtable='my_table'
    ).load()

dataframe.show()

Answer 5

要使用pyspark和jupyter笔记本笔记本：首先使用

打开pyspark

pyspark --driver-class-path /spark_drivers/postgresql-42.2.12.jar  --jars /spark_drivers/postgresql-42.2.12.jar

然后在jupyter笔记本中

import os
jardrv = "~/spark_drivers/postgresql-42.2.12.jar"


from pyspark.sql import SparkSession
spark = SparkSession.builder.config('spark.driver.extraClassPath', jardrv).getOrCreate()
url = 'jdbc:postgresql://127.0.0.1/dbname'
properties = {'user': 'usr', 'password': 'pswd'}
df = spark.read.jdbc(url=url, table='tablename', properties=properties)

Answer 6

我无法使用计算机上的jar连接到postgresDB。这段代码解决了我的驱动程序问题

 from pyspark.sql import SparkSession
 import os

 sparkClassPath = os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages org.postgresql:postgresql:42.1.1 pyspark-shell'

 spark = SparkSession \
    .builder \
    .config("spark.driver.extraClassPath", sparkClassPath) \
    .getOrCreate()

 df = spark.read \
    .format("jdbc") \
    .option("url", "jdbc:postgresql://localhost:5432/yourDBname") \
    .option("driver", "org.postgresql.Driver") \
    .option("dbtable", "yourtablename") \
    .option("user", "postgres") \
    .option("password", "***") \
    .load()

df.show()

Answer 7

此异常表示jdbc驱动程序不在驱动程序类路径中。你可以使用spark.driver.extraClassPath参数激活提交jdbc jar，也可以使用AddYears将其添加到驱动程序类路径中。

Answer 8

从https://jdbc.postgresql.org/download.html下载PostgreSQL JDBC驱动程序

然后用您的替换数据库配置值。

<script src="/js/jquery-ui.min.js"></script>
<script src="/js/datepicker-it.js"></script>

更多信息：https://spark.apache.org/docs/latest/sql-data-sources-jdbc.html

Answer 9

只需使用--jars <path/to/your/jdbc.jar>初始化pyspark

例如：pyspark --jars /path/Downloads/postgresql-42.2.16.jar

然后按照上面其他答案中的建议创建一个数据框

例如：

df2 = spark.read.format("jdbc").option("url", "jdbc:postgresql://localhost:5432/db").option("dbtable", "yourTableHere").option("user", "postgres").option("password", "postgres").option("driver", "org.postgresql.Driver").load()

Answer 10

我也发现了这个错误

java.sql.SQLException: No suitable driver
 at java.sql.DriverManager.getDriver(Unknown Source)

并在.config('spark.driver.extraClassPath', './postgresql-42.2.18.jar')中添加一项SparkSession很好并且可行。喜欢

from pyspark import SparkContext, SparkConf
import os
from pyspark.sql.session import SparkSession

spark = SparkSession \
    .builder \
    .appName('Python Spark Postgresql') \
    .config("spark.jars", "./postgresql-42.2.18.jar") \
    .config('spark.driver.extraClassPath', './postgresql-42.2.18.jar') \
    .getOrCreate()


df = spark.read \
    .format("jdbc") \
    .option("url", "jdbc:postgresql://localhost:5432/abc") \
    .option("dbtable", 'tablename') \
    .option("user", "postgres") \
    .option("password", "1") \
    .load()

df.printSchema()

Answer 11

从 here 下载 postgresql jar：
将此添加到 ~Spark/jars/ 文件夹。
重新启动内核。它应该可以工作。

使用pyspark连接到PostgreSQL

11 个答案: