使用Solr Nutch对特定数据进行Web爬网

时间:2015-08-28 07:18:17

标签: solr web-scraping web-crawler nutch

我看到了一些搜索网站,例如http://homes.mitula.ph/homes/makati,我想知道他们如何抓取其他网站中的数据,例如priceimagedescription,并将其显示在他们的网站上。

我正在考虑使用Solr索引数据,而Nutch则使用它来抓取数据。我是网络抓取和索引的新手,到目前为止,我只能抓取网页的内容。

Solr Nutch可以做那种爬行吗?怎么样?

1 个答案:

答案 0 :(得分:1)

没有'SOLR Nutch'这样的东西。它们是独立的项目。

您可以在Nutch中编写HTMLParseFilters并实现提取逻辑,然后配置索引过滤器,以便将数据发送到SOLR。

BTW你可能会发现StormCrawler更容易使用和扩展。它有一个ParseFilter implementation,它使用XPath表达式从网页中提取信息。

当然你可以在Nutch的HTMLParseFilter中做同样的事情但是需要编写一些代码并将它放在自定义插件中。