我们的Cassandra(DSE 4.7)群集中的一个表包含150亿条记录以南。随着我们拥有的服务器数量 - 使用Solr将它们全部索引是不可能的。
那么,是否有可能以某种方式对数据进行部分索引/采样和/或开始索引,然后“暂停”索引,让我们说在500mm记录之后?
我假设另一种选择只是转储500mm记录并将它们重新加载到另一个“临时”表和索引中......?
重点是,我想开始编制索引并能够进行搜索,并随着我们的增长和添加更多服务器 - 能够进行更多索引并再次暂停。
这甚至可能吗?
谢谢!
答案 0 :(得分:1)
无法索引几行。我同意并行表(可能带有TTL)可能是你最好的选择。
这里有一些(非常有效的)策略可以最小化DSE搜索索引的大小。如果你没有使用Highlighting(term ...)或Boosts(omitnorms)之类的东西,你可能会缩减约50%:
•set termVectors =“false”
•set termPositions =“false”
•set termOffsets =“false”
•设置omitNorms =“true”
•只有您要搜索的索引字段