将镶木地板文件缓慢加载到雪花

时间:2021-07-13 09:37:51

标签: snowflake-cloud-data-platform parquet

我有一个包含 3000 个整数列 + id 一个的示例表。

有 256k 行,其中只有 id 列填充数字,其余为空。

我导出为 parquet 格式,生成了两个文件:678kB(72k 行)和 815kB(184k 行)。

导出是通过:

COPY INTO '@test/256k_rows_parquet'
FROM x4 
file_format = (type=parquet)

然后我从第一个表中创建了一个新表:

CREATE TABLE x5 AS SELECT * FROM x4 LIMIT 0

我用

加载了镶木地板文件
COPY INTO x5
(
    id, A_1 [...] A3000
)
FROM
(
    $1:_COL_0, $1:_COL_1 [...] $1:_COL_3000
    FROM
    @test/256k_rows_parquet[...]
)

问题是加载 72k 行的文件需要 53 秒,而加载另一个 184k 行的文件需要 12 分钟。我正在使用最小的仓库。

0 个答案:

没有答案