我们正在研究Google Nearline作为一些“暖”存储要求的解决方案。基本上,我们希望可以一次又一次地访问大约5 PB的数据集的一部分,但是整个集合很少见。
也就是说,一年可能要在整个数据集中运行某些操作(即用新字段修补所有数据)。这些算法将在GCP(dataproc)中运行。在近线执行此操作会浪费我们每次预算5万。
想知道是否有可能在不引起全部数据检索损失的情况下更改存储类别?我看到可以通过gsutil rewrite
更改存储类,但这将检索数据。
也许我们可以使用生命周期规则来更改存储类而无需检索?还是有其他方法可以做到?
答案 0 :(得分:1)
gsutil rewrite
作为操作将最终在存储类上创建新对象,这意味着您在一个存储对象类中读取GCS对象,然后在另一个存储对象类中写入(即,创建了新对象)
此操作由您的项目负责。