镜像网站 - 403禁止使用用户代理字符串

时间:2016-05-27 16:51:25

标签: wget mirroring httrack

我正在申请一个反映美国大学学术目录的申请。为此,我有一组Celery工作者使用wgethttrack镜像内容,样式和脚本,然后上传到我们的S3存储桶。

对于少数大学网站,我使用wget / httrack和Windows Chrome用户代理字符串遇到了403 - Forbidden错误。但是,我可以在浏览器中加载网页。

我原本以为用户代理和引用是问题所在,因此我将它们分别设置为Chrome 50用户代理和google.com。但是,我仍然遇到这个问题。但是,如果我将python requests库与所有这些URL一起使用,我会得到HTTP 200响应。

我确保使用过cookies,所以我很茫然。是requests有什么理由可行,但wget / httrack没有?

0 个答案:

没有答案