应用错误收集

如何为许多开发人员提供大数据存储库的专有副本？

时间：2018-08-08 15:22:35

标签： bigdata storage cloud-storage

这是我目前在工作中遇到的情况：

我们目前拥有300GB以上的生产数据（并且每天都在增加）。在mongodb clustr中
如果多个开发人员正在运行他们的算法，那么他们中的所有/某些人可能最终会产生意想不到的输出，因为其他算法也在更新数据
如果每个人都有自己的数据副本，则可以轻松解决此问题！
但是，考虑到数据量，我每天都不给他们（现在有8个开发人员）提供他们的专有副本是不可行的。即使我使该过程自动化，我们也必须等到通过网络完成复制
考虑到我们很快就会处理TB的数据，我希望采用一种面向未来的方法

我假设许多组织将面临此类问题，并且想知道其他人如何处理这种情况。

我非常感谢任何有关此问题的指导，线索和解决方案。

谢谢

1 个答案:

答案 0 :(得分：0)

您可以尝试在复制的数据上使用快照，以便每个开发人员都可以拥有自己的数据“副本”。请参阅Snapshots的定义，并咨询您的云提供商是否可以提供可写快照。

请注意，快照几乎是立即创建的，创建快照时它们几乎不需要存储空间，因为该技术利用指针而不是数据本身。不幸的是，每个快照都可以增长到原始卷大小，因为任何数据更改都会启动物理数据复制：隐藏在该过程之后的技术通常是CoW-写时复制。因此存在严重的危险，不受控制的快照会“吞噬”您所有的可用存储空间。