我目前正在实施分布式在线机器学习框架。基本上这个系统处理样本的数据流。模型(例如感知器层)将随每个样本更新。
所以,我正在寻找一个可以支持大量更新和读取单个实体的数据库。我认为mongodb和它的“就地更新”是一个不错的选择,但也许有一个更符合我需求的数据库。
答案 0 :(得分:0)
我会冒昧地回答......
我将免责声明我已成为Mongo的忠实粉丝,所以请考虑到这一点。 =)
Mongo对于读取来说是个不错的选择,但只有如果你愿意让数据略微不一致。 Mongo有一个称为副本集的东西,它基本上是一个集群。
副本集只有一台计算机,可以接收写入/更新。它处理得很好,但需要考虑。它不是主/主复制设置。
随着写入/更新的进入,它们将被复制到副本集中的其他节点。这就是最终的一致性。
你可以考虑像Couchbase / CouchDB这样的东西,它也有一个集群概念,它是主/主。您可以写入任何节点,它最终将在其他节点上可用。
要考虑的一些事情。
编辑:
我会和Mongo一起去。 =)