这个问题的目标是记录:
使用PySpark中的JDBC连接读取和写入数据所需的步骤
JDBC源和已知解决方案的可能问题
只需稍加更改,这些方法就可以与其他支持的语言一起使用,包括Scala和R.
答案 0 :(得分:88)
提交应用程序或启动shell时包含适用的JDBC驱动程序。您可以使用例如--packages
:
bin/pyspark --packages group:name:version
或合并driver-class-path
和jars
bin/pyspark --driver-class-path $PATH_TO_DRIVER_JAR --jars $PATH_TO_DRIVER_JAR
也可以在启动JVM实例之前使用PYSPARK_SUBMIT_ARGS
环境变量设置这些属性,或使用conf/spark-defaults.conf
设置spark.jars.packages
或spark.jars
/ spark.driver.extraClassPath
。
选择所需的模式。 Spark JDBC writer支持以下模式:
append
:将此内容:class:DataFrame
附加到现有数据。overwrite
:覆盖现有数据。ignore
:如果数据已存在,请静默忽略此操作。error
(默认情况):如果数据已存在,则抛出异常。
Upserts或其他细粒度修改are not supported
mode = ...
准备JDBC URI,例如:
# You can encode credentials in URI or pass
# separately using properties argument
# of jdbc method or options
url = "jdbc:postgresql://localhost/foobar"
(可选)创建JDBC参数字典。
properties = {
"user": "foo",
"password": "bar"
}
properties
/ options
也可用于设置supported JDBC connection properties。
使用DataFrame.write.jdbc
df.write.jdbc(url=url, table="baz", mode=mode, properties=properties)
保存数据(详见pyspark.sql.DataFrameWriter
)。
已知问题:
使用--packages
(java.sql.SQLException: No suitable driver found for jdbc: ...
)
假设没有驱动程序版本不匹配来解决此问题,您可以将driver
类添加到properties
。例如:
properties = {
...
"driver": "org.postgresql.Driver"
}
使用df.write.format("jdbc").options(...).save()
可能会导致:
java.lang.RuntimeException:org.apache.spark.sql.execution.datasources.jdbc.DefaultSource不允许将create table作为select。
解决方案未知。
,您可以尝试直接调用Java方法:
df._jdf.insertIntoJDBC(url, "baz", True)
使用sqlContext.read.jdbc
:
sqlContext.read.jdbc(url=url, table="baz", properties=properties)
或sqlContext.read.format("jdbc")
:
(sqlContext.read.format("jdbc")
.options(url=url, dbtable="baz", **properties)
.load())
已知问题和陷阱:
Spark SQL支持使用JDBC源进行谓词下推,但并非所有谓词都可以下推。它也不会委托限制或聚合。可能的解决方法是使用有效的子查询替换dbtable
/ table
参数。例如见:
默认情况下,JDBC数据源使用单个执行程序线程按顺序加载数据。要确保分布式数据加载,您可以:
column
(必须为IntegeType
),lowerBound
,upperBound
,numPartitions
。predicates
,每个所需分区一个。请参阅:
在分布式模式(带分区列或谓词)中,每个执行程序都在自己的事务中运行。如果同时修改源数据库,则无法保证最终视图的一致性。
Maven Repository(要获取--packages
所需的坐标,请选择所需的版本,然后从格式选项卡中复制数据compile-group:name:version
替换相应的字段)或Maven Central Repository :
根据数据库的不同,可能存在专门的来源,在某些情况下首选:
答案 1 :(得分:-2)
下载 mysql-connector-java 驱动程序并保存在spark jar文件夹中,观察这里将数据写入" acotr1"的bellow python代码,我们必须创建acotr1表结构mysql数据库
spark = SparkSession.builder.appName("prasadad").master('local').config('spark.driver.extraClassPath','D:\spark-2.1.0-bin-hadoop2.7\jars\mysql-connector-java-5.1.41-bin.jar').getOrCreate()
sc = spark.sparkContext
from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)
df = sqlContext.read.format("jdbc").options(url="jdbc:mysql://localhost:3306/sakila",driver="com.mysql.jdbc.Driver",dbtable="actor",user="root",password="Ramyam01").load()
mysql_url="jdbc:mysql://localhost:3306/sakila?user=root&password=Ramyam01"
df.write.jdbc(mysql_url,table="actor1",mode="append")
答案 2 :(得分:-4)
请参阅此链接以下载postgres的jdbc,并按照下载jar文件的步骤进行操作
https://jaceklaskowski.gitbooks.io/mastering-apache-spark/exercises/spark-exercise-dataframe-jdbc-postgresql.html jar文件将在这样的路径下载。 “/home/anand/.ivy2/jars/org.postgresql_postgresql-42.1.1.jar”
如果你的火花版本是2
from pyspark.sql import SparkSession
spark = SparkSession.builder
.appName("sparkanalysis")
.config("spark.driver.extraClassPath",
"/home/anand/.ivy2/jars/org.postgresql_postgresql42.1.1.jar")
.getOrCreate()
//for localhost database//
pgDF = spark.read \
.format("jdbc") \
.option("url", "jdbc:postgresql:postgres") \
.option("dbtable", "public.user_emp_tab") \
.option("user", "postgres") \
.option("password", "Jonsnow@100") \
.load()
print(pgDF)
pgDF.filter(pgDF["user_id"]>5).show()
将文件保存为python并运行“python individfilename.py”