雪花复制到并行 Parquet 文件加载

时间:2021-01-30 15:16:02

标签: parallel-processing load snowflake-cloud-data-platform parquet

如何一次性在表中使用 COPY INTO 加载 5 年的 Parquet 数据?因为 1 个月的负荷需要我 1.5 小时,5 年需要我 90 小时。如果有可能并行加载?我该怎么做?

该代码适用于 1 个月

COPY INTO "PUBLIC"."MYTABLE" ("One_Month_Transactions") FROM SELECT ($1:"One_Month_Transactions" @my_azure_stage/data201601);

谢谢

1 个答案:

答案 0 :(得分:0)

获取您拥有的文件数量(希望它们在很多很多文件中)并调整您的仓库大小,以便在单个 COPY INTO 语句中加载它们。假设您将一个仓库专用于单个 COPY INTO 语句,它将能够为每个节点并行加载 8 个文件。 1 个节点是 XS,2 个是 S,4 个是中等,然后从那里加倍。

如果您每 1 个月提供多个文件,您使用的仓库大小,那么我可以帮助您更准确地为您确定大小,但关键是在 1 条 COPY INTO 语句中完成所有工作......并进行数学计算8 个文件/节点 * 每个大小的节点数。