应用错误收集

是否可以存储在solr完整的html页面源代码中？

时间：2013-02-12 09:48:36

标签： java solr nutch

在我之前的问题中，我得到了答案，我可以在solr中存储小索引（少数站点）数据而不使用任何数据库（Is it possible to store data in solr?）。我想知道，如果可以在solr中存储完整的html页面源代码而不使用任何数据库吗？

1 个答案:

答案 0 :(得分：4)

如果您想抓取网站并将其编入索引，Nutch与Solr是一个解决方案 Nutch with Solr Tutorial会让你开始。
但是，Nutch不会使用html标签维护Original Solr代码。

您需要通过下载html页面来开发自定义解决方案，然后可以使用Solr Extracting Request Handler向Solr提供HTML文件并从html文件中提取内容。例如在link

Solr使用Apache Tika从uploaded html file

中提取内容

如果您将数据作为html文本提供，也可以检查HTMLStripCharFilterFactory。