我正在使用Solr 6.5,我注意到的一件事是我的索引文件大小随着内容不断增加。我使用了一个停用词文件,没有常用词被索引。
我在索引中看到很多HTML标签,我不想索引这些标签,以及不应该编入索引的内容中的注释。我怎样才能找到这些并更新我的stopword txt来处理它们?
我只索引了英文内容,索引文件已经是30 GB,只有900万个文档。
答案 0 :(得分:2)
您可以在编制索引时使用HTMLStripFilterFactory删除所有HTML内容。
但是900万份文件的30GB每个文件的价格不到4kb,实际上并不是那么多。这些文档 do 具有固有的大小,因此只要您为索引编制索引,它们就会将数据添加到索引中。