从网页上爬行/抓取.jpg图像-403禁止错误

时间:2018-11-15 23:06:59

标签: python web-scraping web-crawler wget

是否可以使用Python从网页上抓取/抓取.jpg图片?

示例:
网站(http://thisisthesiteimcrawling.com/images
我想从该目录中获取所有.jpg图像。我知道有很多。当我尝试使用wget时,出现403 Forbidden错误。

具有图像的完整路径:
示例:(http://thisisthesiteimcrawling.com/images/image1.jpg)您将能够通过浏览器/ wget查看/检索图像...

使用Python,即使开发人员已禁用原始/ images /目录中的目录列表,也可以通过一种方式抓取* .jpg的网页吗?

此外,更改wget中的用户代理等也不起作用,robots.txt也不允许该目录。该网站使用的是纯http。

1 个答案:

答案 0 :(得分:0)

请参阅答案Web crawling and robots.txt 极有可能无法列出目录内容,因此如果没有直接链接就无法对其进行爬网...