当使用spark sql读取jdbc数据时,spark默认只启动1个分区。但是当桌子太大时,火花会读得很慢
我知道有两种方法可以制作分区:
1.在选项中设置partitionColumn,lowerBound,upperBound和numPartitions;
2.在选项中设置一组偏移量;
但我的情况是:
我的jdbc表没有INT列或字符串列可以通过这两种方式的偏移容易地分开
有了这两种方法在我的情况下不起作用,有没有其他方法可以分区管理spark读取jdbc数据?
答案 0 :(得分:0)
看看this question ...解决方案是使用数据库中的伪随机列和要读取的行数分区。
Spark JDBC pseudocolumn isn't working enter link description here