与apache cassandra一起使用的最佳数据存储文件系统?

时间:2017-04-15 19:34:07

标签: cassandra distributed-cache cloud-storage

我想知道在哪里存储cassandra提供的数据。 类似于"数据湖",我可以把所有处理过的数据放在一天结束时或类似的东西。

我正在寻找可以防止数据丢失的分布式可靠存储解决方案。

Cassandra的文件系统名为CFS,但存储在哪里?

2 个答案:

答案 0 :(得分:7)

Cassandra以其实时异步复制的形式内置了弹性。在大多数情况下,在EXT4,ZFS等之外使用任何类型的特殊文件系统都可能导致Cassandra世界出现问题。

大多数用户依赖于Cassandra的复制,但有些用户还选择合并备份,这些备份往往会上传到云存储或单独的mnt点。

如果您想从Cassandra获取数据并将其存储在其他地方,例如数据提取,我建议使用Spark有效地从Cassandra中批量读取数据,然后写出平面文件或系统选择。

答案 1 :(得分:1)

关于整体Cassandra性能的古老而又精彩的文章,还有关于文件系统的会话(搜索文件系统部分):

https://tobert.github.io/pages/als-cassandra-21-tuning-guide.html

在Cassandra中,您对丢失数据的最佳保护是高复制因子和快照。