PostgreSQL的计数高于Spark SQL

时间:2018-07-08 05:27:28

标签: postgresql apache-spark hadoop

当我尝试使用Spark Scala将数据帧写入PostgreSQL时,我注意到PostgreSQL上的计数总是高于Spark Scala。我希望它是一样的。

Spark与PostgreSQL写入是否有问题?

写入PostgreSQL

val connection="jdbc:postgresql://localhost:5449/adb?user=aschema&password=abc" 
val prop = new java.util.Properties 
prop.setProperty("driver", "org.postgresql.Driver") 
df.write.mode("Overwrite").jdbc(url=  connection, table = "adb.aschema.TABLE", connectionProperties  = prop)

我读取计数的命令给出了准确的计数,但是PostgreSQL显示出更高的计数。

sqlContext.read.option("compression","snappy")
    .parquet("/user-data/xyz/input/TABLE/").count

0 个答案:

没有答案