其他方法使spark分区读取jdbc

时间:2018-03-05 09:28:09

标签: apache-spark jdbc

当使用spark sql读取jdbc数据时,spark默认只启动1个分区。但是当桌子太大时,火花会读得很慢 我知道有两种方法可以制作分区:
1.在选项中设置partitionColumn,lowerBound,upperBound和numPartitions;
2.在选项中设置一组偏移量;
但我的情况是:
  我的jdbc表没有INT列或字符串列可以通过这两种方式的偏移容易地分开 有了这两种方法在我的情况下不起作用,有没有其他方法可以分区管理spark读取jdbc数据?

1 个答案:

答案 0 :(得分:0)

看看this question ...解决方案是使用数据库中的伪随机列和要读取的行数分区。

Spark JDBC pseudocolumn isn't working enter link description here