应用错误收集

是否有可用于PHP或Ruby的Web爬虫库？

时间：2009-05-13 03:06:21

标签： php ruby web-crawler

是否有适用于PHP或Ruby的网络爬虫库？一个可以首先深度或宽度优先的库...并且即使在使用href =“../ relative_path.html”和基本URL时也处理链接。

5 个答案:

答案 0 :(得分：5)

http://phpcrawl.cuab.de/

答案 1 :(得分：3)

查看此页面以获取Ruby库：Ruby Mechanize

我想提一下，您仍然需要对抓取工具遍历网站的方式负责。

答案 2 :(得分：0)

你可以去红宝石的webrat或watir，比机械化更容易

答案 3 :(得分：0)

如果您想学习基本的网络抓取工具＆amp;搜索东西，你可以开始看“月神引擎”。

答案 4 :(得分：0)

如果你需要抓取使用javascript的网页，你可以使用Capybara一个驱动程序来启动真正的浏览器，例如poltergeist。它通常与测试框架一起用于验收测试，但也可以在测试框架之外使用。