如何在ruby中编写爬虫?

时间:2012-02-21 05:18:27

标签: ruby-on-rails ruby web-crawler

我正在开发一个ROR应用程序,我需要实现一个爬虫程序来抓取其他站点并将数据存储在我的数据库中。例如,假设我想从http://www.snapdeal.com抓取所有交易并将它们存储到我的数据库中。如何使用crawler实现这一点?

3 个答案:

答案 0 :(得分:9)

根据您的使用情况,有几种选择。

我使用Nokogiri和Mechanize的组合来完成我的项目,我认为它们是不错的选择。

答案 1 :(得分:3)

您想看看mechanize。同样根据你的提及,你可能根本不需要轨道。

答案 2 :(得分:0)

正如Sergio评论的那样,您检索网页,解析网页并关注其链接。在您的情况下,听起来您更关注“屏幕抓取”而不是抓取深层链接网络,因此像Scrubyt这样的库会有所帮助(虽然它的进展已经消失)。您还可以使用较低级别的以解析为重点的库,如Nokogiri