我有一个包含 3000 个整数列 + id
一个的示例表。
有 256k 行,其中只有 id
列填充数字,其余为空。
我导出为 parquet 格式,生成了两个文件:678kB(72k 行)和 815kB(184k 行)。
导出是通过:
COPY INTO '@test/256k_rows_parquet'
FROM x4
file_format = (type=parquet)
然后我从第一个表中创建了一个新表:
CREATE TABLE x5 AS SELECT * FROM x4 LIMIT 0
我用
加载了镶木地板文件COPY INTO x5
(
id, A_1 [...] A3000
)
FROM
(
$1:_COL_0, $1:_COL_1 [...] $1:_COL_3000
FROM
@test/256k_rows_parquet[...]
)
问题是加载 72k 行的文件需要 53 秒,而加载另一个 184k 行的文件需要 12 分钟。我正在使用最小的仓库。