我有一个脚本(下面)用3步骤处理网站。一次设置为最多1页时效果很好。然而,当我把它增加到2时,事情开始变得不稳定。 onFinished比我预期的更早开火,页面还没有完全加载。因此,我脚本的其余部分会中断。知道为什么会这样吗?我应该补充一点,我使用的是最新版本(1.5)。
MAX_PAGES = 1
###
changing MAX_PAGES to >1 causes some pages onFinished event to fire before
the page is fully rendered. this is evident by the fact that there are >1 images
for some pages. i havent been able to reproduce using microsoft.com, but on some
pages i was working on the first onLoadFinished seemed to be called before the page
was actually fully loaded based on the look of the rendered images
###
newPage = (id) ->
context = {}
context.id = id
context.step = 0
context.page = require('webpage').create()
context.page.onLoadStarted = ->
context.step++
context.page.onLoadFinished = (status) ->
console.log status
if status is 'success'
context.page.render("#{context.id}_#{context.step}.png")
else
context.page.release()
context.page.open('http://www.microsoft.com')
console.log 'started loading'
newPage id for id in [1..MAX_PAGES]
答案 0 :(得分:4)
我认为问题与PhantomJS中的每个网页都使用相同的QNetworkAccessManager这一事实有关,因此,当每个网页对象完成加载时,finished()信号将被触发。可能需要修改PhantomJS的代码才能解决此问题。我之前在PhantomJS中尝试并行加载多个页面时已经注意到了这一点。我正在使用的应用程序使用QtWebkit并同时加载多个页面,因此我必须确保每个网页都有自己的QNetworkAccessManager,以便finished()信号不会相互干扰。
答案 1 :(得分:3)
要抓取多个页面,请参阅与库捆绑在一起的示例follow.js。 https://github.com/ariya/phantomjs/blob/master/examples/follow.js
在加载下一页之前,您需要使用递归来等待当前页面加载。