使用SOLR部分索引Cassandra表

时间:2015-06-04 15:51:56

标签: solr cassandra datastax-enterprise

我们的Cassandra(DSE 4.7)群集中的一个表包含150亿条记录以南。随着我们拥有的服务器数量 - 使用Solr将它们全部索引是不可能的。

那么,是否有可能以某种方式对数据进行部分索引/采样和/或开始索引,然后“暂停”索引,让我们说在500mm记录之后?

我假设另一种选择只是转储500mm记录并将它们重新加载到另一个“临时”表和索引中......?

重点是,我想开始编制索引并能够进行搜索,并随着我们的增长和添加更多服务器 - 能够进行更多索引并再次暂停。

这甚至可能吗?

谢谢!

1 个答案:

答案 0 :(得分:1)

无法索引几行。我同意并行表(可能带有TTL)可能是你最好的选择。

这里有一些(非常有效的)策略可以最小化DSE搜索索引的大小。如果你没有使用Highlighting(term ...)或Boosts(omitnorms)之类的东西,你可能会缩减约50%:

•set termVectors =“false”

•set termPositions =“false”

•set termOffsets =“false”

•设置omitNorms =“true”

•只有您要搜索的索引字段