使用Python-Windmill进行Web抓取(如何准确等待页面完全加载)

时间:2012-01-21 06:27:08

标签: python web-scraping windmill

  1. 我一直在玩风车尝试一些网页抓取,但API等待.forPageLoad无法检查网页是否完全呈现。

  2. 在我需要使用现有DOM重新加载页面的情况下,我使用waits.forElement来检测脚本的DOM以“决定”页面已加载。即使在页面加载之前,这偶尔也会检测到DOM。

  3. 在firefox中加载带有风车测试客户端的页面似乎也需要永远。如果我使用常规firefox浏览器加载同一页面可能需要2秒钟,但在测试客户端可能需要一分钟。这花了这么长时间是正常的吗?

  4. 最后我想知道是否有更好的替代风车进行网页拼接?文档看起来很稀疏。

  5. 请指教。谢谢:P

1 个答案:

答案 0 :(得分:0)

 client.waits.sleep(milliseconds=u'2000')

绝对暂停2秒。

 client.waits.forPageLoad(timeout=u'20000')

将等待未来的行,直到页面加载或直到20秒过去,这是有史以来的首先。把它想象成一个有时间限制的断言。如果页面加载在20秒内通过,如果没有失败。

我希望这有帮助,

TD

相关问题