在我们阅读Cassandra之前,我们决定选择它作为我们的主数据库。鼓励我们选择这个数据库的最重要,最有用和最特殊的功能是可伸缩性,这有助于我们使用大量数据。
但是,似乎它本身不能满足我们的要求。我在Stackoverfolw中询问了一些关于我们的要求以及如何使用Cassandra响应它们的问题,答案是在Cassandra上使用替代工具作为 Spark , Solr , DSE搜索工具等
我们的案例确实是大数据,但我们也会有各种各样的查询。
通过这些解释,留在卡桑德拉是否明智?...或者转换到另一个数据库更好?
答案 0 :(得分:1)
Cassandra不适合临时查询,所以我建议您在Cassandra上使用Hive,将Cassandra表映射到Hive表,使用连接器:cassandra_handler_for_hive,然后使用配置单元进行连接和非分区键上的条件)
我应该提到使用Hive和Cassandra的查询的性能是不合理的(我有一个案例,在具有500M记录的表上count(*)在4个节点上花费1小时)。作为一种解决方法,我曾经在HDFS中复制表格,之后使用HDFS上的数据进行计算,但如果您正在寻找新数据,这不是一个好的解决方案。
现在提出您的问题:为了使用Cassandra,它取决于您的需求,Cassandra在每秒读/写记录方面表现出色。 如果您使用Hive / Cassandra来满足您的需求,那么为什么不留在Cassandra?