我正在使用COPY INTO将CSV从S3加载到雪花中的表。每次进程运行时,该表都会被截断(数据将保留在后续的临时表中)。如果COPY INTO完成但在加载到持久性登台表之前作业失败,则在下次加载时记录将丢失,并且COPY INTO命令将忽略加载的文件。
我们的存档过程适用于1天以上的文件,因此我将无法临时切换到强制加载,因为将加载无关的文件。
手动减少到丢失的文件并不理想,因为我们有100多个表,这些表在S3中按表名进行分区。
有人可以建议其他方法吗?
答案 0 :(得分:1)
我会考虑更改您的过程以将文件同时复制到暂存位置和存档位置,然后在COPY INTO中利用PURGE命令。这样,错误的文件会保留在下一次运行中,您仍然可以使用完整的存档。