使用javascript(phantomjs)导航/抓取hashbang链接

时间:2011-06-20 16:04:06

标签: javascript web-scraping hashbang phantomjs

我正在尝试下载几乎完全由JavaScript生成的网站的HTML。所以,我需要模拟浏览器访问并且一直在玩PhantomJS。问题是,该网站使用hashbang网址,我似乎无法让PhantomJS处理hashbang - 它只是不断调用主页。

该网站为http://www.regulations.gov。默认将您带到#!home。我尝试使用以下代码(来自here)尝试处理不同的hashbang。

if (phantom.state.length === 0) {
     if (phantom.args.length === 0) {
        console.log('Usage: loadreg_1.js <some hash>');
        phantom.exit();
     }
     var address = 'http://www.regulations.gov/';
     console.log(address);
     phantom.state = Date.now().toString();
     phantom.open(address);

} else {
     var hash = phantom.args[0];
     document.location = hash;
     console.log(document.location.hash);
     var elapsed = Date.now() - new Date().setTime(phantom.state);
     if (phantom.loadStatus === 'success') {
             if (!first_time) {
                     var first_time = true;
                     if (!document.addEventListener) {
                             console.log('Not SUPPORTED!');
                     }
                     phantom.render('result.png');
                     var markup = document.documentElement.innerHTML;
                     console.log(markup);
                     phantom.exit();
             }
     } else {
             console.log('FAIL to load the address');
             phantom.exit();
     }
}

此代码生成正确的hashbang(例如,我可以将散列设置为'#!contactus'),但它不会动态生成任何不同的HTML - 只是默认页面。但是,当我调用document.location.hash时,它会正确输出。

我还尝试将初始地址设置为hashbang,但是脚本只是挂起而且什么都不做。例如,如果我将网址设置为http://www.regulations.gov/#!searchResults;rpp=10;po=0,则脚本会在将地址打印到终端后挂起,并且什么都不会发生。

1 个答案:

答案 0 :(得分:5)

这里的问题是页面的内容是异步加载的,但是你希望它在加载页面后立即可用。

为了抓取异步加载内容的页面,您需要等待直到您感兴趣的内容已加载为止。根据页面的不同,可能会有不同的检查方式,但最简单的方法是定期检查您希望看到的内容,直到找到它为止。

这里的技巧是找出要查找的内容 - 在加载所需内容之前,您需要在页面上不存在的内容。在这种情况下,我为顶级页面找到的最简单的选项是手动输入您希望在每个页面上看到的H1标签,并将它们键入哈希:

var titleMap = {
    '#!contactUs': 'Contact Us',
    '#!aboutUs': 'About Us'
    // etc for the other pages
};

然后在您的成功阻止中,您可以设置定期超时以在h1标记中查找所需的标题。当它出现时,您知道可以呈现页面:

if (phantom.loadStatus === 'success') {
    // set a recurring timeout for 300 milliseconds
    var timeoutId = window.setInterval(function () {
        // check for title element you expect to see
        var h1s = document.querySelectorAll('h1');
        if (h1s) {
            // h1s is a node list, not an array, hence the
            // weird syntax here
            Array.prototype.forEach.call(h1s, function(h1) {
                if (h1.textContent.trim() === titleMap[hash]) {
                    // we found it!
                    console.log('Found H1: ' + h1.textContent.trim());
                    phantom.render('result.png');
                    console.log("Rendered image.");
                    // stop the cycle
                    window.clearInterval(timeoutId);
                    phantom.exit();
                }
            });
            console.log('Found H1 tags, but not ' + titleMap[hash]);
        }
        console.log('No H1 tags found.');
    }, 300);
}

以上代码适合我。但是如果你需要搜索搜索结果它将不起作用 - 你需要找出一个你可以查找的识别元素或文本,而不必提前知道标题。

修改:此外,newest version of PhantomJS现在看起来在获取新数据时会触发onResourceReceived事件。我没有研究过这个,但你可能能够将一个监听器绑定到这个事件来达到同样的效果。