使用spark df将数据写入雪花的性能问题

时间:2018-05-02 21:34:08

标签: pyspark spark-dataframe pyspark-sql snowflake-datawarehouse snowflake

我正在尝试从AWS RDS系统读取数据并使用SPARK写入Snowflake。 我的SPARK作业与RDS建立JDBC连接,并将数据拉入数据帧,另一方面,我使用雪花连接器将其写入雪花。

问题陈述:当我尝试写入数据时,即使是30 GB的数据也需要很长时间才能写入。

解决方案我试过
1)在写入之前重新分配数据帧 2)缓存数据帧 3)在写入之前计算df以减少写入时的扫描时间。

1 个答案:

答案 0 :(得分:0)

自问这个问题以来可能已经有一段时间了。如果您正在准备数据帧,或使用其他工具来准备将数据移动到Snowflake,则python连接器可以很好地集成。 一般情况下,一些有关查询疑难解答的建议(包括上面建议的注释)很棒,您是否能够使用最新更新解决jdbc连接?

要考虑的其他一些疑难解答:

让我知道您的想法,我很想听听您如何解决它。