PhantomJS具有多个页面的意外加载行为

时间:2012-04-27 15:52:25

标签: coffeescript phantomjs

我有一个脚本(下面)用3步骤处理网站。一次设置为最多1页时效果很好。然而,当我把它增加到2时,事情开始变得不稳定。 onFinished比我预期的更早开火,页面还没有完全加载。因此,我脚本的其余部分会中断。知道为什么会这样吗?我应该补充一点,我使用的是最新版本(1.5)。

MAX_PAGES = 1
### 
changing MAX_PAGES to >1 causes some pages onFinished event to fire before
the page is fully rendered.  this is evident by the fact that there are >1 images
for some pages.  i havent been able to reproduce using microsoft.com, but on some
pages i was working on the first onLoadFinished seemed to be called before the page
was actually fully loaded based on the look of the rendered images
###

newPage = (id) ->
context = {}
context.id = id
context.step = 0
context.page = require('webpage').create()
context.page.onLoadStarted = ->
    context.step++
context.page.onLoadFinished = (status) ->
    console.log status
    if status is 'success'
        context.page.render("#{context.id}_#{context.step}.png")
    else
        context.page.release()
        context.page.open('http://www.microsoft.com')
        console.log 'started loading'

newPage id for id in [1..MAX_PAGES]

2 个答案:

答案 0 :(得分:4)

我认为问题与PhantomJS中的每个网页都使用相同的QNetworkAccessManager这一事实有关,因此,当每个网页对象完成加载时,finished()信号将被触发。可能需要修改PhantomJS的代码才能解决此问题。我之前在PhantomJS中尝试并行加载多个页面时已经注意到了这一点。我正在使用的应用程序使用QtWebkit并同时加载多个页面,因此我必须确保每个网页都有自己的QNetworkAccessManager,以便finished()信号不会相互干扰。

答案 1 :(得分:3)

要抓取多个页面,请参阅与库捆绑在一起的示例follow.js。 https://github.com/ariya/phantomjs/blob/master/examples/follow.js

在加载下一页之前,您需要使用递归来等待当前页面加载。