我看到了一些搜索网站,例如http://homes.mitula.ph/homes/makati,我想知道他们如何抓取其他网站中的数据,例如price
,image
和description
,并将其显示在他们的网站上。
我正在考虑使用Solr索引数据,而Nutch则使用它来抓取数据。我是网络抓取和索引的新手,到目前为止,我只能抓取网页的内容。
Solr Nutch可以做那种爬行吗?怎么样?
答案 0 :(得分:1)
没有'SOLR Nutch'这样的东西。它们是独立的项目。
您可以在Nutch中编写HTMLParseFilters并实现提取逻辑,然后配置索引过滤器,以便将数据发送到SOLR。
BTW你可能会发现StormCrawler更容易使用和扩展。它有一个ParseFilter implementation,它使用XPath表达式从网页中提取信息。
当然你可以在Nutch的HTMLParseFilter中做同样的事情但是需要编写一些代码并将它放在自定义插件中。