我正在申请一个反映美国大学学术目录的申请。为此,我有一组Celery工作者使用wget
或httrack镜像内容,样式和脚本,然后上传到我们的S3存储桶。
对于少数大学网站,我使用wget / httrack和Windows Chrome用户代理字符串遇到了403 - Forbidden错误。但是,我可以在浏览器中加载网页。
我原本以为用户代理和引用是问题所在,因此我将它们分别设置为Chrome 50用户代理和google.com。但是,我仍然遇到这个问题。但是,如果我将python requests库与所有这些URL一起使用,我会得到HTTP 200响应。
我确保使用过cookies,所以我很茫然。是requests
有什么理由可行,但wget
/ httrack
没有?