我们将s3用作数据存储,其中文件是从kafka传递并随后由spark处理的。鉴于将文件加载到kafka的过程过了一会儿无法重现文件(因为源在大约24小时内消失了),我们需要备份s3以防需要重新运行转换(以防S3文件甚至是S3存储桶本身)被删除)。
关于对象备份,似乎S3版本控制可能是helfpul,(我们总是添加新文件,而不修改现有文件,但是它不能完全防止恶意操作,这些操作会删除文件及其版本ID
因此似乎有一些备份到另一个S3中会有所帮助(此处的权限与源S3不同,因此并非同一用户访问不同的S3)。
以传统方式,我们每周进行一次完整备份,接下来的7天,我们将进行增量备份并将其保留一段时间。
似乎像同步到备份S3(我们不同步已删除的文件),并且有一种方法可以还原比某个时间戳早的版本控制文件的顶部,基本上可以将S3还原到某个时间戳。
是否有一种工具或方法可以实现这一目标(无需编写自己的脚本)?