雪花作为档案馆?

时间:2019-10-12 23:06:19

标签: snowflake-data-warehouse

(正在寻找雪花用户的以下确认信息)


用户:

  

我想弄清楚档案用例是否适合Snowflake。我的数据湖/数据仓库在Snowflake上,但是我需要存档n年以前的数据。我应该改用S3还是Glacier。我的理解是,如果我对s3 /冰川检索进行存档,将会很复杂。

响应:

  

我建议比较Snowflake存储与AWS Glacier / S3的存储成本。

     

如果您打算查询数据,则可以使用以下选项:

     

a。 AWS Glacier Select(有限制)

     

b。将数据从Glacier复制到S3,然后通过Athena或Snowflake查询

     

c。雪花查询S3存储。

     d。如果数据在Snowflake中,则使用Snowflake sql。

     

总体Snowflake单独的表存储选项看起来更好。


我们可以从SO社区获得上述确认吗?

3 个答案:

答案 0 :(得分:2)

我认为,将数据保存在Snowflake中不再是奢侈的事情,对于在AWS上运行的客户,底层存储是S3(默认情况下由Snowflake压缩)。从将旧数据移动到另一个表/模式的意义上,您仍然可以执行“归档”,这样就可以将基本表保持一定的大小(可以说是一定的性能,但是即使如此,在Snowflake中,这可能是也有争议)。

要注意的一件事是,AWS Glacier确实很便宜,直到需要从中检索数据为止。

答案 1 :(得分:1)

另一种选择是存档back into S3 from snowflake并使用外部表处理已存档的数据。这样检索起来会比较慢,我认为这不会比使用Snowflake便宜。我认为,就纯粹的存储成本而言,冰川将是最便宜的,但是如果您需要查询数据,那将不是最优的。

答案 2 :(得分:1)

如前一条注释中所述,您可以将数据作为存档移动到单独的数据库中,并根据需要限制对它的访问。如果您打算进行查询,那么Glacier并不是很多选择,因为那是您支付费用的地方。

要考虑的另一件事是,将数据简单地存储在S3和Snowflake中的最大区别在于加载/解析数据的成本。加载/解析需要大量的计算能力,甚至可能更糟,因此如果您使用JSON数据而不是CSV。对于您来说,如果您已经在Snowflake中拥有数据,则将其导出回S3似乎是一种浪费。