这是一个来自数字图书馆的链接。有前后按钮可以看到下一页和上一页。我想自动下载这些图片。我曾经在python中使用过urllib,但该网站很快就将它包含了。我只是想下载这本书用于学习目的,所以任何人都可以推荐一些编程工具,如网页蜘蛛,它可以模拟翻页和自动获取图片的过程。谢谢!
答案 0 :(得分:0)
wget是一款出色的网络蜘蛛
答案 1 :(得分:0)
该网站使用Javascript,因此您无法轻松使用Python抓取它。两个建议:
单击下一个按钮时,确定正在进行的请求。你可以使用像firebug这样的工具来做到这一点。然后你可能会发现你可以在不处理任何JS的情况下刮掉它。
使用Selenium等工具,允许您“执行”JS的浏览器脚本。
对于阻止您的网站,有两种方法可以减少被阻止的可能性:
将您的用户代理更改为常用浏览器的用户代理,例如Firefox浏览器。
在访问下一张图片之间添加随机延迟,让您看起来更像人。
答案 2 :(得分:0)
您需要一个真正的浏览器才能使用此(某种)网站。 Selenium是一种选择,但它更适合Web测试。对于网页抓取iMacros非常好。我有一个快速测试,它适用于iMacros for Firefox / IE。
克里斯