应用错误收集

时间：2015-08-28 07:18:17

标签： solr web-scraping web-crawler nutch

我看到了一些搜索网站，例如http://homes.mitula.ph/homes/makati，我想知道他们如何抓取其他网站中的数据，例如price，image和description，并将其显示在他们的网站上。

我正在考虑使用Solr索引数据，而Nutch则使用它来抓取数据。我是网络抓取和索引的新手，到目前为止，我只能抓取网页的内容。

Solr Nutch可以做那种爬行吗？怎么样？

答案 0 :(得分：1)

没有'SOLR Nutch'这样的东西。它们是独立的项目。

您可以在Nutch中编写HTMLParseFilters并实现提取逻辑，然后配置索引过滤器，以便将数据发送到SOLR。

BTW你可能会发现StormCrawler更容易使用和扩展。它有一个ParseFilter implementation，它使用XPath表达式从网页中提取信息。

当然你可以在Nutch的HTMLParseFilter中做同样的事情但是需要编写一些代码并将它放在自定义插件中。