使用复合主键查找PySpark oracle JDBC的下限和上限

时间:2019-12-25 08:51:41

标签: oracle apache-spark pyspark spark-jdbc

我正在使用PySpark Oracle JDBC将数据获取到HDFS中,并使用主键作为分区列传递上限和下限值。

当我只有一个主键列时,这很好用。现在,当有多个列列为表的主键时,如何确定多个列的下限和上限,以及分配分区列的最佳方法是什么?

下面是我用于使用Spark JDBC提取数据的代码

df = spark.read.format("jdbc") \
.option("url", url) \
.option("driver", oracle.jdbc.OracleDriver) \
.option("lowerBound", min)  \
.option("upperBound", max)  \
.option("numPartitions", numPartitions)  \
.option("partitionColumn", primaryKey) \
.option("dbtable", config("table")) \
.option("user", user) \
.option("password", password).load()

0 个答案:

没有答案