应用错误收集

雪花作为档案馆？

时间：2019-10-12 23:06:19

标签： snowflake-data-warehouse

（正在寻找雪花用户的以下确认信息）

用户：

我想弄清楚档案用例是否适合Snowflake。我的数据湖/数据仓库在Snowflake上，但是我需要存档n年以前的数据。我应该改用S3还是Glacier。我的理解是，如果我对s3 /冰川检索进行存档，将会很复杂。

响应：

我建议比较Snowflake存储与AWS Glacier / S3的存储成本。

如果您打算查询数据，则可以使用以下选项：

a。 AWS Glacier Select（有限制）

b。将数据从Glacier复制到S3，然后通过Athena或Snowflake查询

c。雪花查询S3存储。
     d。如果数据在Snowflake中，则使用Snowflake sql。

总体Snowflake单独的表存储选项看起来更好。

我们可以从SO社区获得上述确认吗？

3 个答案:

答案 0 :(得分：2)

我认为，将数据保存在Snowflake中不再是奢侈的事情，对于在AWS上运行的客户，底层存储是S3（默认情况下由Snowflake压缩）。从将旧数据移动到另一个表/模式的意义上，您仍然可以执行“归档”，这样就可以将基本表保持一定的大小（可以说是一定的性能，但是即使如此，在Snowflake中，这可能是也有争议）。

要注意的一件事是，AWS Glacier确实很便宜，直到需要从中检索数据为止。

答案 1 :(得分：1)

另一种选择是存档back into S3 from snowflake并使用外部表处理已存档的数据。这样检索起来会比较慢，我认为这不会比使用Snowflake便宜。我认为，就纯粹的存储成本而言，冰川将是最便宜的，但是如果您需要查询数据，那将不是最优的。

答案 2 :(得分：1)

如前一条注释中所述，您可以将数据作为存档移动到单独的数据库中，并根据需要限制对它的访问。如果您打算进行查询，那么Glacier并不是很多选择，因为那是您支付费用的地方。

要考虑的另一件事是，将数据简单地存储在S3和Snowflake中的最大区别在于加载/解析数据的成本。加载/解析需要大量的计算能力，甚至可能更糟，因此如果您使用JSON数据而不是CSV。对于您来说，如果您已经在Snowflake中拥有数据，则将其导出回S3似乎是一种浪费。