Fetch_pandas与作为Parquet卸载-使用Python连接器卸载雪花数据

时间:2020-09-02 20:05:31

标签: pandas snowflake-cloud-data-platform

我是Snowflake和Python的新手。我正在尝试找出哪种方法更快,更有效:

  1. Read data from snowflake使用fetch_pandas_all()或fetch_pandas_batches() OR
  2. 将数据从Snowflake卸载到Parquet文件中,然后将它们读入数据框。

上下文 我正在使用数据层回归测试工具,该工具必须验证和验证由不同版本的系统生成的数据集。

通常,模拟运行会产生大约40-50百万行,每行18列。

我对pandas或python的了解很少,但是我正在学习(我曾经是前端开发人员)。

任何帮助表示赞赏。

最新更新(09/11/2020) 我使用fetch_pandas_batches()将数据下拉到可管理的数据帧中,然后将它们写入SQLite数据库。谢谢。

1 个答案:

答案 0 :(得分:0)

根据您的用例,您最好运行一个fetch_pandas_all()命令以将数据放入df。由于它只是数据的一跳,因此性能可能会更好,并且也更容易编写代码。我也喜欢利用SQLAlchemy库并使用read_sql命令。看起来像这样:

resultSet = pd.read_sql(text(sqlQuery), SnowEngine)

建立引擎连接后。概念相同,但改用SQLAlchemy库。