在我之前的问题中,我得到了答案,我可以在solr中存储小索引(少数站点)数据而不使用任何数据库(Is it possible to store data in solr?)。我想知道,如果可以在solr中存储完整的html页面源代码而不使用任何数据库吗?
答案 0 :(得分:4)
如果您想抓取网站并将其编入索引,Nutch与Solr是一个解决方案
Nutch with Solr Tutorial会让你开始。
但是,Nutch不会使用html标签维护Original Solr代码。
您需要通过下载html页面来开发自定义解决方案,然后可以使用Solr Extracting Request Handler向Solr提供HTML文件并从html文件中提取内容。例如在link
Solr使用Apache Tika从uploaded html file
中提取内容如果您将数据作为html文本提供,也可以检查HTMLStripCharFilterFactory。