脚本浏览器刮板

时间:2012-07-22 04:35:13

标签: node.js scraper node.io

我可以使用什么来实现以下功能,编写浏览器脚本或以其他方式向服务器发出请求,登录,浏览网站,例如。找到链接并导航到这些链接。

现在,因为我进入了NodeJS,所以我在看node.io.它允许你很容易刮到网站,但问题是当我尝试发布(登录)我什么也得不到回来!

nodeio = require "node.io"

nodeio.scrape ->

    @post "http://localhost/auth/login", {
        username: "username"
        password: "password"
    }, ->

        console.log "=====After Login====="

但我得到了

OK: Job complete

即使登录失败,我应该在登录后console.log


然后我认为通过编写浏览器脚本来实现这一点可能会更好,它会更真实地模拟真实的请求吗?

2 个答案:

答案 0 :(得分:2)

Selenium或Watir允许您编写浏览器脚本。他们使用的是实际的浏览器,因此它们比较低级别的工具要慢,但它们可以完成浏览器所需的一切(即JavaScript)。

答案 1 :(得分:2)

node.io似乎是一个很好的工具,但我也建议zombie.js。它似乎主要用于测试,但文档看起来也很适合刮擦。

如果您想使用脚本浏览器路线,请忽略我的回答。 :)