我使用Apache Cassandra存储大约1亿条记录。有一个节点具有以下规范 -
RAM-32GB, HDD-2TB, Intel quad core processor.
使用cassandra会出现读取性能问题。对于某些查询,提供输出大约需要40分钟。在搜索了如何提高读取性能后,我开始了解以下因素 -
Compaction strategy,compression techniques, key cache, increase the heap space, turning off the swap space for cassandra.
执行这些优化后,性能保持不变。在搜索之后,我带来了将Hadoop与cassandra集成在一起。这是在cassandra中进行查询的正确方法还是我在这里缺少的任何其他因素? 感谢。
答案 0 :(得分:0)
看起来你的数据模型可以改进。 40分钟是不可能的。我在几分钟内从600万条记录(大约10GB)下载所有数据。并认为它是因为我在下载过程中转换数据并存储它们。普通选择必须花费几毫秒。