屏幕抓取zombie / node.js的分页结果

时间:2012-01-04 23:48:15

标签: javascript node.js screen-scraping web-scraping zombie.js

使用zombie / node.js时,循环和抓取未知长度的结果集的最佳方法是什么?

这是我的基本代码:

var zombie = require("zombie");
var browser = new zombie.Browser({ debug: true, runScripts: true });
browser.visit("http://www.example.com/", function(err, browser, status) {
    browser.fill("searchbox", "my search query").pressButton("Search", function(err, browser, status) {
            process(browser.html());
            browser.clickLink('Next', function(err, browser, status) {
                process(browser.html());
            });

    });
});

我的process()函数接受html并解析它们的结果,但是没有添加无限的嵌套browser.clickLink()调用,我只是不确定如何在我不这样做时循环分页结果知道总共有多少页(html中没有任何指示,但是“下一步”链接)。

感谢。

0 个答案:

没有答案