我正在使用PySpark Oracle JDBC将数据获取到HDFS中,并使用主键作为分区列传递上限和下限值。
当我只有一个主键列时,这很好用。现在,当有多个列列为表的主键时,如何确定多个列的下限和上限,以及分配分区列的最佳方法是什么?
下面是我用于使用Spark JDBC提取数据的代码
df = spark.read.format("jdbc") \
.option("url", url) \
.option("driver", oracle.jdbc.OracleDriver) \
.option("lowerBound", min) \
.option("upperBound", max) \
.option("numPartitions", numPartitions) \
.option("partitionColumn", primaryKey) \
.option("dbtable", config("table")) \
.option("user", user) \
.option("password", password).load()