pyspark dataframe.write()中的batchsize选项不起作用

时间:2019-11-11 09:56:25

标签: postgresql pyspark batchsize

我正在尝试将数据从pyspark写入PostgreSQL数据库。我使用batchsize 1000,在pyspark dataframe中的总数据为10000。但是在postgresql中进行的插入不是批量的。它正在一张一张地插入数据。 以下代码用于写入数据库

        df.write.
            option('batchsize',1000).jdbc(
            url=database_connection.url,
            table=data_table,
            mode="append",
            properties=database_connection.properties
        )

请提出一些解决方案。此选项对POSTGRESQL Db有效吗?

1 个答案:

答案 0 :(得分:0)

根据所使用的资源(核心),将数据负载与大容量负载并行。从HDFS表中获取批处理时,会在内部对其进行处理,而在将其写入表时则不会进行处理。这个link可以帮助您理解这一点。