每当Solr被索引到集合(使用configSet sample_techproducts_configs
)并使用URL时,通过以下命令:
bin/post -p 8983 -c collection https://www.mywebsite.com -recursive 3
创建的索引确实将字段content
复制到text
字段。
该字段确实具有使用嵌入式tika解析解析的网页内容的价值。
但是,当这些网页包含任何<script>
或<style>
标记时,<body>
被删除,但这些相应标记内的脚本或样式仍然是网页的内容,并显示为响应Solr查询。
如何删除这些不需要的内容?
答案 0 :(得分:0)
请阅读inputstream
中 DATA_MODE_WEB
的SimplePostTool
(仅适用于内容类型为“text / html”的人,并删除所有<script>
}和<style>
标记及其内容,并使用stringToStream(String)
函数中的readPageFromUrl(URL u)
再次将该content_String转换为流。