使用wget下载时,如何将html网页发布到Solr索引?我如何修改以下示例以便它同时被索引? wget -P / var / myserver / archive http://www.somesite/products.html
我无法在Solr文档中发现一个明显的例子,并且会对任何指针表示感谢。
答案 0 :(得分:0)
您可以查看Apache Nutch,这是一个开源网络抓取工具 您可以为Nutch提供基页,它将帮助您索引页面及其中的链接 Nutch与Solr集成,因此页面将由Solr索引并可搜索。
但是,如果只有几页没有Spider功能,您只需下载html页面并通过客户端代码将其提供给solr。
Solr有HTML过滤器,用于从这些页面中提取内容并将其作为文本索引。