Solr索引文件删除html标签和垃圾内容形式索引

时间:2017-10-05 11:57:14

标签: indexing solr lucene

我正在使用Solr 6.5,我注意到的一件事是我的索引文件大小随着内容不断增加。我使用了一个停用词文件,没有常用词被索引。

我在索引中看到很多HTML标签,我不想索引这些标签,以及不应该编入索引的内容中的注释。我怎样才能找到这些并更新我的stopword txt来处理它们?

我只索引了英文内容,索引文件已经是30 GB,只有900万个文档。

1 个答案:

答案 0 :(得分:2)

您可以在编制索引时使用HTMLStripFilterFactory删除所有HTML内容。

但是900万份文件的30GB每个文件的价格不到4kb,实际上并不是那么多。这些文档 do 具有固有的大小,因此只要您为索引编制索引,它们就会将数据添加到索引中。