应用错误收集

我正在使用PySpark Oracle JDBC将数据获取到HDFS中，并使用主键作为分区列传递上限和下限值。

当我只有一个主键列时，这很好用。现在，当有多个列列为表的主键时，如何确定多个列的下限和上限，以及分配分区列的最佳方法是什么？

下面是我用于使用Spark JDBC提取数据的代码

df = spark.read.format("jdbc") \
.option("url", url) \
.option("driver", oracle.jdbc.OracleDriver) \
.option("lowerBound", min)  \
.option("upperBound", max)  \
.option("numPartitions", numPartitions)  \
.option("partitionColumn", primaryKey) \
.option("dbtable", config("table")) \
.option("user", user) \
.option("password", password).load()

使用复合主键查找PySpark oracle JDBC的下限和上限

0 个答案: