如何在通过URL索引时删除SOLR索引[内容字段]内容中的脚本和样式?

时间:2017-04-07 05:43:34

标签: indexing solrj solr6

每当Solr被索引到集合(使用configSet sample_techproducts_configs)并使用URL时,通过以下命令:

bin/post -p 8983 -c collection https://www.mywebsite.com -recursive 3 

创建的索引确实将字段content复制到text字段。 该字段确实具有使用嵌入式tika解析解析的网页内容的价值。

但是,当这些网页包含任何<script><style>标记时,<body>被删除,但这些相应标记内的脚本或样式仍然是网页的内容,并显示为响应Solr查询。

如何删除这些不需要的内容?

1 个答案:

答案 0 :(得分:0)

请阅读inputstream DATA_MODE_WEB SimplePostTool(仅适用于内容类型为“text / html”的人,并删除所有<script> }和<style>标记及其内容,并使用stringToStream(String)函数中的readPageFromUrl(URL u)再次将该content_String转换为流。