Question

如何一次性在表中使用 COPY INTO 加载 5 年的 Parquet 数据？因为 1 个月的负荷需要我 1.5 小时，5 年需要我 90 小时。如果有可能并行加载？我该怎么做？

该代码适用于 1 个月

COPY INTO "PUBLIC"."MYTABLE" ("One_Month_Transactions") FROM SELECT ($1:"One_Month_Transactions" @my_azure_stage/data201601);

谢谢

Answer 1

获取您拥有的文件数量（希望它们在很多很多文件中）并调整您的仓库大小，以便在单个 COPY INTO 语句中加载它们。假设您将一个仓库专用于单个 COPY INTO 语句，它将能够为每个节点并行加载 8 个文件。 1 个节点是 XS，2 个是 S，4 个是中等，然后从那里加倍。

如果您每 1 个月提供多个文件，您使用的仓库大小，那么我可以帮助您更准确地为您确定大小，但关键是在 1 条 COPY INTO 语句中完成所有工作......并进行数学计算8 个文件/节点 * 每个大小的节点数。