是否有适用于PHP或Ruby的网络爬虫库?一个可以首先深度或宽度优先的库...并且即使在使用href =“../ relative_path.html”和基本URL时也处理链接。
答案 0 :(得分:5)
答案 1 :(得分:3)
查看此页面以获取Ruby库:Ruby Mechanize
我想提一下,您仍然需要对抓取工具遍历网站的方式负责。
答案 2 :(得分:0)
你可以去红宝石的webrat或watir, 比机械化更容易
答案 3 :(得分:0)
如果您想学习基本的网络抓取工具&搜索东西,你可以开始看“月神引擎”。
答案 4 :(得分:0)
如果你需要抓取使用javascript的网页,你可以使用Capybara一个驱动程序来启动真正的浏览器,例如poltergeist。它通常与测试框架一起用于验收测试,但也可以在测试框架之外使用。