我们一直在讨论在我们小组内设计数据仓库策略,以满足测试,可重复性和数据同步要求。建议的一个想法是使用existing tool来调整NoSQL方法,而不是尝试在文件系统上重新实现大量相同的方法。我不知道NoSQL方法是否是我们想要实现的目标的最佳方法,但也许如果我描述我们需要/希望你们所有人都可以提供帮助。
我们更喜欢使用Python,C或C ++ API来处理这样的系统,但我们大多数人都有各种语言的经验。我们不介意只要它有效,完成工作,并节省我们的时间。你认为呢?有没有这样的东西?
答案 0 :(得分:5)
你看过MongoDB的GridFS吗? http://www.mongodb.org/display/DOCS/GridFS+Specification
您可以按默认元数据以及您自己的其他元数据查询文件。文件分为小块,您可以指定所需的部分。此外,文件存储在一个集合中(类似于RDBMS表),您可以启动Mongo的复制功能。
答案 1 :(得分:3)
答案 2 :(得分:0)
对我而言,Lustre和Ceph都存在像Cassandra这样的数据库没有的问题。我认为这里的核心问题是Cassandra和其他类似数据库的缺点是FS后端。
性能显然可以是一个。空间使用怎么样?一致性?