是否有可用于PHP或Ruby的Web爬虫库?

时间:2009-05-13 03:06:21

标签: php ruby web-crawler

是否有适用于PHP或Ruby的网络爬虫库?一个可以首先深度或宽度优先的库...并且即使在使用href =“../ relative_path.html”和基本URL时也处理链接。

5 个答案:

答案 0 :(得分:5)

答案 1 :(得分:3)

查看此页面以获取Ruby库:Ruby Mechanize

我想提一下,您仍然需要对抓取工具遍历网站的方式负责。

答案 2 :(得分:0)

你可以去红宝石的webrat或watir, 比机械化更容易

答案 3 :(得分:0)

如果您想学习基本的网络抓取工具&搜索东西,你可以开始看“月神引擎”。

答案 4 :(得分:0)

如果你需要抓取使用javascript的网页,你可以使用Capybara一个驱动程序来启动真正的浏览器,例如poltergeist。它通常与测试框架一起用于验收测试,但也可以在测试框架之外使用。