据我所知,Cassandra是一个NoSQL数据库,用许多索引修补它并不是一种方法,但在这里我正在寻找我的分析集群的解决方案,而不是生产/实时数据库。
所以我认为添加索引以减少Spark过滤的数据量是有意义的。
当地的Cassandra二级指数与Lucene的指数相比如何?
单独的Cassandra无法提供许多功能,但是你可以用这两种功能做什么呢?
是否更好/仅使用Lucene是否有意义?
我看到的另一个优点是我只能在我的分析集群上安装Lucene,而不会使用索引重载实时(因此可以提高写入性能)。
答案 0 :(得分:2)
不要打扰Lucene集成
自 Cassandra 3.4 以来,我们有一个名为SASI的新二级索引,提供全文搜索功能,并且性能非常好。
阅读本文:https://github.com/apache/cassandra/blob/trunk/doc/SASI.md