如何为许多开发人员提供大数据存储库的专有副本?

时间:2018-08-08 15:22:35

标签: bigdata storage cloud-storage

这是我目前在工作中遇到的情况:

  • 我们目前拥有300GB以上的生产数据(并且每天都在增加)。在mongodb clustr中
  • 数据科学团队的成员正在研究几种算法,这些算法需要立即访问所有这些数据,并且这些算法可能会在适当的位置更新数据,因此,他们已经在开发环境中复制了数据以供使用,直到他们确定自己的代码为止有效
  • 如果多个开发人员正在运行他们的算法,那么他们中的所有/某些人可能最终会产生意想不到的输出,因为其他算法也在更新数据
  • 如果每个人都有自己的数据副本,则可以轻松解决此问题!

  • 但是,考虑到数据量,我每天都不给他们(现在有8个开发人员)提供他们的专有副本是不可行的。即使我使该过程自动化,我们也必须等到通过网络完成复制

  • 考虑到我们很快就会处理TB的数据,我希望采用一种面向未来的方法

我假设许多组织将面临此类问题,并且想知道其他人如何处理这种情况。

我非常感谢任何有关此问题的指导,线索和解决方案。

谢谢

1 个答案:

答案 0 :(得分:0)

您可以尝试在复制的数据上使用快照,以便每个开发人员都可以拥有自己的数据“副本”。请参阅Snapshots的定义,并咨询您的云提供商是否可以提供可写快照。

请注意,快照几乎是立即创建的,创建快照时它们几乎不需要存储空间,因为该技术利用指针而不是数据本身。不幸的是,每个快照都可以增长到原始卷大小,因为任何数据更改都会启动物理数据复制:隐藏在该过程之后的技术通常是CoW-写时复制。因此存在严重的危险,不受控制的快照会“吞噬”您所有的可用存储空间。