是否可以存储在solr完整的html页面源代码中?

时间:2013-02-12 09:48:36

标签: java solr nutch

在我之前的问题中,我得到了答案,我可以在solr中存储小索引(少数站点)数据而不使用任何数据库(Is it possible to store data in solr?)。我想知道,如果可以在solr中存储完整的html页面源代码而不使用任何数据库吗?

1 个答案:

答案 0 :(得分:4)

如果您想抓取网站并将其编入索引,Nutch与Solr是一个解决方案 Nutch with Solr Tutorial会让你开始。
但是,Nutch不会使用html标签维护Original Solr代码。

您需要通过下载html页面来开发自定义解决方案,然后可以使用Solr Extracting Request Handler向Solr提供HTML文件并从html文件中提取内容。例如在link

Solr使用Apache Tikauploaded html file

中提取内容

如果您将数据作为html文本提供,也可以检查HTMLStripCharFilterFactory