Cassandra用于存储文件

时间:2011-09-22 12:37:36

标签: storage document cassandra

我目前正在运行一个项目,我们需要每年为大约2亿个帐户存储400亿个文档(PDF,TIFF),并且想知道是否有可能使用Cassandra?这主要是因为Cassandra设计的可扩展性,稳定性和多数据中心的使用。

但是我想知道使用Cassandra是否是一个好主意 - 或者像CouchDB这样的另一种选择会是更好的选择吗?

只需注意,我们不需要在文档中进行全文搜索,并且对于每个文档,每个文档只附加有限的元数据 - 例如日期,时间,来源,所有者和唯一ID,以及一些关键字。通常通过对所有者ID的查询来完成对文档的访问,并从那里选择通过原点和可选的日期/时间所需的文档。所以没什么特别的。

感谢您对此的看法。

1 个答案:

答案 0 :(得分:1)

只是一些想法:

您可能还需要考虑分布式文件系统,例如HDFS。

每年400亿是每秒1361次--Cassandra可以处理这种写入负载,假设文档大小适中,而不是所有巨大的多兆字节文件。

您期待什么样的读取负载?

文件是否会永久保存,即无限期每年增加400亿?

如果一个文件是100KB(比如说),那么每年4PB,我想?我没有听说过一个很大的Cassandra星团 - 值得问Cassandra mailing list(有一些现实的数字而不是我的猜测!)。

我听说Cassandra节点通常可以在重负载下管理1TB,在轻负载下可能达到10TB。因此,第一年至少有一个400节点的集群,可能更多,特别是如果你想要复制。

This page给出了2009年HDFS功能的数据 - 使用4000个节点的14PB(6000万个文件),以及许多其他有趣的细节(例如需要60GB RAM的名称节点)。