如何从这个JavaScript网站刮取图像?

时间:2010-12-10 03:00:45

标签: python scripting web-crawler

link text

这是一个来自数字图书馆的链接。有前后按钮可以看到下一页和上一页。我想自动下载这些图片。我曾经在python中使用过urllib,但该网站很快就将它包含了。我只是想下载这本书用于学习目的,所以任何人都可以推荐一些编程工具,如网页蜘蛛,它可以模拟翻页和自动获取图片的过程。谢谢!

3 个答案:

答案 0 :(得分:0)

wget是一款出色的网络蜘蛛

http://linux.die.net/man/1/wget

答案 1 :(得分:0)

该网站使用Javascript,因此您无法轻松使用Python抓取它。两个建议:

  1. 单击下一个按钮时,确定正在进行的请求。你可以使用像firebug这样的工具来做到这一点。然后你可能会发现你可以在不处理任何JS的情况下刮掉它。

  2. 使用Selenium等工具,允许您“执行”JS的浏览器脚本。

  3. 对于阻止您的网站,有两种方法可以减少被阻止的可能性:

    1. 将您的用户代理更改为常用浏览器的用户代理,例如Firefox浏览器。

    2. 在访问下一张图片之间添加随机延迟,让您看起来更像人。

答案 2 :(得分:0)

您需要一个真正的浏览器才能使用此(某种)网站。 Selenium是一种选择,但它更适合Web测试。对于网页抓取iMacros非常好。我有一个快速测试,它适用于iMacros for Firefox / IE。

克里斯