应用错误收集

从网页上爬行/抓取.jpg图像-403禁止错误

时间：2018-11-15 23:06:59

标签： python web-scraping web-crawler wget

是否可以使用Python从网页上抓取/抓取.jpg图片？

示例：
网站（http://thisisthesiteimcrawling.com/images）
我想从该目录中获取所有.jpg图像。我知道有很多。当我尝试使用wget时，出现403 Forbidden错误。

具有图像的完整路径：
示例：（http://thisisthesiteimcrawling.com/images/image1.jpg）您将能够通过浏览器/ wget查看/检索图像...

使用Python，即使开发人员已禁用原始/ images /目录中的目录列表，也可以通过一种方式抓取* .jpg的网页吗？

此外，更改wget中的用户代理等也不起作用，robots.txt也不允许该目录。该网站使用的是纯http。

1 个答案:

答案 0 :(得分：0)

请参阅答案Web crawling and robots.txt 极有可能无法列出目录内容，因此如果没有直接链接就无法对其进行爬网...