我目前正在使用Solr-Cell来获取几个html页面的内容并将其编入索引。问题是我在标题中有一个菜单显示在所有页面上。此菜单及其所有项目都显示在搜索结果中。我不希望将其编入索引。
你将如何实现这一目标?
是否可以排除某些DIV(带有类名或ID)?
答案 0 :(得分:0)
实际上,如果你进行测试,你会看到在Solr中使用Tika的方式,它会删除大部分HTML,包括div,类和id属性。
因此,您可能无法获得所需的粒度,并且可能需要使用类似RegexReplaceProcessorFactory UpdateRequestProcessor的内容来通过匹配纯文本来删除不需要的部分。
如果您直接从代码中调用Tika,则可以对其进行更多控制,并可以将IdentityHtmlMapper设置为不进行HTML过滤。