Question

每当Solr被索引到集合（使用configSet sample_techproducts_configs）并使用URL时，通过以下命令：

bin/post -p 8983 -c collection https://www.mywebsite.com -recursive 3

创建的索引确实将字段content复制到text字段。该字段确实具有使用嵌入式tika解析解析的网页内容的价值。

但是，当这些网页包含任何<script>或<style>标记时，<body>被删除，但这些相应标记内的脚本或样式仍然是网页的内容，并显示为响应Solr查询。

如何删除这些不需要的内容？

Answer 1

请阅读inputstream中 DATA_MODE_WEB 的SimplePostTool（仅适用于内容类型为“text / html”的人，并删除所有<script> }和<style>标记及其内容，并使用stringToStream(String)函数中的readPageFromUrl(URL u)再次将该content_String转换为流。

如何在通过URL索引时删除SOLR索引[内容字段]内容中的脚本和样式？

1 个答案: