扫描字节为100后,雪花查询仍在运行

时间:2020-02-07 21:32:39

标签: snowflake-cloud-data-platform

这可能更多是雪花知识的问题,而不是问题。 我正在运行从s3到雪花的复制命令。 而且我发现要扫描100个字节花了30分钟,但是即使将字节扫描到100%也要花40分钟才能完成查询。

有人可以解释一下这是怎么回事,因为这样一来,我很难估计在查看历史记录屏幕时任何正在运行的复制命令可能需要花费多少时间。

2 个答案:

答案 0 :(得分:3)

听起来像您在查询配置文件的“已扫描的字节数”列中所指的100%。如果您在COPY INTO命令中进行了转换,这将需要更多的时间来处理。正如其他人提到的那样,仓库的大小将产生影响,因为仓库的大小将决定核心和线程的数量,这直接影响写入的并行性。

简而言之,“扫描的字节数”仅是Snowflake读取的将由作业处理的总数据的量度,但仍需要处理该作业。

答案 1 :(得分:1)

我们过去发现每个xsmall可以从S3加载40mb / s,因此一个small可以加载2x。这就是我们对负载速度的基本期望。

如果从存储桶s3://buck_name/的根目录应对,但是该目录中有数百万个文件,而只有一个新的100字节文件,则可以合理地减慢副本的速度。但是我怀疑事实并非如此。

下一件事可能是无法运行查询部分,该查询部分在概要文件中将具有多个1 \ 1001 \ 2002之类的概要文件阶段选项卡,这些阶段在阶段数中的增量(以千为单位)表明查询未能完成执行,并重新运行。有时这可能是由于仓库损坏造成的,有时是由于当前版本的新运行时间失败,并且重试可以在较旧的版本上运行以查看它们是否成功。但是其中经常有一些线索,随着时间的流逝,当出现错误时,我们已经看到“向内部/外部存储溢出”。

但是实际上,如果事情看起来“真的”很奇怪,我会开一张支持票,并要求对正在发生的事情进行解释。通常,这就是我所看到的,这就是为什么我认为这很奇怪。