Question

我正在尝试将数据从pyspark写入PostgreSQL数据库。我使用batchsize 1000，在pyspark dataframe中的总数据为10000。但是在postgresql中进行的插入不是批量的。它正在一张一张地插入数据。以下代码用于写入数据库

        df.write.
            option('batchsize',1000).jdbc(
            url=database_connection.url,
            table=data_table,
            mode="append",
            properties=database_connection.properties
        )

请提出一些解决方案。此选项对POSTGRESQL Db有效吗？

Answer 1

根据所使用的资源（核心），将数据负载与大容量负载并行。从HDFS表中获取批处理时，会在内部对其进行处理，而在将其写入表时则不会进行处理。这个link可以帮助您理解这一点。

pyspark dataframe.write（）中的batchsize选项不起作用

1 个答案: