pyspark - 使用spark df将数据写入雪花的性能问题

时间：2018-05-02 21:34:08

标签： pyspark spark-dataframe pyspark-sql snowflake-datawarehouse snowflake

我正在尝试从AWS RDS系统读取数据并使用SPARK写入Snowflake。我的SPARK作业与RDS建立JDBC连接，并将数据拉入数据帧，另一方面，我使用雪花连接器将其写入雪花。

问题陈述：当我尝试写入数据时，即使是30 GB的数据也需要很长时间才能写入。

解决方案我试过：
1）在写入之前重新分配数据帧 2）缓存数据帧 3）在写入之前计算df以减少写入时的扫描时间。

答案 0 :(得分：0)

自问这个问题以来可能已经有一段时间了。如果您正在准备数据帧，或使用其他工具来准备将数据移动到Snowflake，则python连接器可以很好地集成。一般情况下，一些有关查询疑难解答的建议（包括上面建议的注释）很棒，您是否能够使用最新更新解决jdbc连接？

要考虑的其他一些疑难解答：

节省时间，并使用Spark连接器https://docs.snowflake.net/manuals/user-guide/spark-connector.html \
对于较大的数据集，通常增加您正在使用的会话的仓库大小，并在10 mb至100 mb的较小文件中循环输入数据将提高计算速度。

让我知道您的想法，我很想听听您如何解决它。