我正在尝试从AWS RDS系统读取数据并使用SPARK写入Snowflake。 我的SPARK作业与RDS建立JDBC连接,并将数据拉入数据帧,另一方面,我使用雪花连接器将其写入雪花。
问题陈述:当我尝试写入数据时,即使是30 GB的数据也需要很长时间才能写入。
解决方案我试过:
1)在写入之前重新分配数据帧
2)缓存数据帧
3)在写入之前计算df以减少写入时的扫描时间。
答案 0 :(得分:0)
自问这个问题以来可能已经有一段时间了。如果您正在准备数据帧,或使用其他工具来准备将数据移动到Snowflake,则python连接器可以很好地集成。 一般情况下,一些有关查询疑难解答的建议(包括上面建议的注释)很棒,您是否能够使用最新更新解决jdbc连接?
要考虑的其他一些疑难解答:
让我知道您的想法,我很想听听您如何解决它。