雪花-将大文件放入内部雪花阶段

时间:2019-10-03 15:11:23

标签: csv osx-snow-leopard snowflake-data-warehouse

我目前正在尝试将一个大的,未压缩的CSV文件上传到内部雪花阶段。该文件为500 GB。我运行了put命令,但看起来并没有发生太多事情。没有状态更新,只是挂在那里。

有什么想法吗?这最终会超时吗?完成吗?有人有估计的时间吗?

我很想尝试以某种方式杀死它。我目前正在将500 GB的大文件拆分为大约1000个较小的文件,然后将它们并行压缩并上传(在阅读了更多最佳做法之后)。

2 个答案:

答案 0 :(得分:1)

除非您指定了auto_compress=FALSE,否则PUT中的第1步正在压缩文件,这可能需要花费500GB的时间...
使用parallel=<n>会自动将文件分割成较小的块并并行上传-您不必自己分割源文件。 (但是,如果您想...,可以。)

答案 1 :(得分:1)

根据雪花的建议,请先将文件分割成多个小文件,然后再将其转入雪花内部阶段(默认情况下,雪花会压缩文件)

然后尝试在多集群仓库中运行copy命令,然后您将看到雪花的性能。

非常感谢, 斯里加