Solr:排除某些HTML标记或仅包含索引中的某些标记

时间:2013-03-04 22:44:40

标签: apache solr solr-cell

我目前正在使用Solr-Cell来获取几个html页面的内容并将其编入索引。问题是我在标题中有一个菜单显示在所有页面上。此菜单及其所有项目都显示在搜索结果中。我不希望将其编入索引。

你将如何实现这一目标?

是否可以排除某些DIV(带有类名或ID)?

1 个答案:

答案 0 :(得分:0)

实际上,如果你进行测试,你会看到在Solr中使用Tika的方式,它会删除大部分HTML,包括div,类和id属性。

因此,您可能无法获得所需的粒度,并且可能需要使用类似RegexReplaceProcessorFactory UpdateRequestProcessor的内容来通过匹配纯文本来删除不需要的部分。

如果您直接从代码中调用Tika,则可以对其进行更多控制,并可以将IdentityHtmlMapper设置为不进行HTML过滤。