流中的雪花重复数据删除缓慢

时间:2021-03-03 15:16:42

标签: snowflake-cloud-data-platform snowflake-stream

我正在使用 snowpipe 将文件从 S3 摄取到基表中,然后我有一个任务将使用此基表上的仅追加流并合并到“最新视图”表中。

对于单个文件集,我不会有任何合并冲突,但如果我的流包含多组文件,我可以有重复的键。为了避免这种情况,我在流数据上使用一个窗口来为每个键选择最新的,但性能可能非常糟糕,即使使用 4XL WH,因为流可能有 100sM 行。 有什么方法可以限制从流中读取的数据(例如接下来的 10,000 行),以便窗口更小,因此重复数据删除速度更快?

或者任何替代方法?理想情况下,最好按列提供顺序来解决冲突...... 我不认为我可以保证流中没有冲突,但现在冲突解决的影响是我的任务性能不佳,即使我 99% 的时间不会有冲突。

0 个答案:

没有答案