我目前正在尝试将一个大的,未压缩的CSV文件上传到内部雪花阶段。该文件为500 GB。我运行了put命令,但看起来并没有发生太多事情。没有状态更新,只是挂在那里。
有什么想法吗?这最终会超时吗?完成吗?有人有估计的时间吗?
我很想尝试以某种方式杀死它。我目前正在将500 GB的大文件拆分为大约1000个较小的文件,然后将它们并行压缩并上传(在阅读了更多最佳做法之后)。
答案 0 :(得分:1)
除非您指定了auto_compress=FALSE
,否则PUT中的第1步正在压缩文件,这可能需要花费500GB的时间...
使用parallel=<n>
会自动将文件分割成较小的块并并行上传-您不必自己分割源文件。 (但是,如果您想...,可以。)
答案 1 :(得分:1)
根据雪花的建议,请先将文件分割成多个小文件,然后再将其转入雪花内部阶段(默认情况下,雪花会压缩文件)
然后尝试在多集群仓库中运行copy命令,然后您将看到雪花的性能。
非常感谢, 斯里加