我想知道在哪里存储cassandra提供的数据。 类似于"数据湖",我可以把所有处理过的数据放在一天结束时或类似的东西。
我正在寻找可以防止数据丢失的分布式可靠存储解决方案。
Cassandra的文件系统名为CFS,但存储在哪里?
答案 0 :(得分:7)
Cassandra以其实时异步复制的形式内置了弹性。在大多数情况下,在EXT4,ZFS等之外使用任何类型的特殊文件系统都可能导致Cassandra世界出现问题。
大多数用户依赖于Cassandra的复制,但有些用户还选择合并备份,这些备份往往会上传到云存储或单独的mnt点。
如果您想从Cassandra获取数据并将其存储在其他地方,例如数据提取,我建议使用Spark有效地从Cassandra中批量读取数据,然后写出平面文件或系统选择。
答案 1 :(得分:1)
关于整体Cassandra性能的古老而又精彩的文章,还有关于文件系统的会话(搜索文件系统部分):
https://tobert.github.io/pages/als-cassandra-21-tuning-guide.html
在Cassandra中,您对丢失数据的最佳保护是高复制因子和快照。