如何抓取403禁止的SNS

时间:2010-09-06 01:19:39

标签: python web-crawler http-status-code-403

我正在使用python编写的抓取工具抓取SNS

它的工作时间很长,但几天前,从我的服务器上获取的网页是ERROR 403 FORBIDDEN。

我尝试更改Cookie,更改浏览器,更改帐户,但都失败了。

似乎被禁止的服务器位于同一网段。

我该怎么办?偷别人的ip? = = ......

很多

1 个答案:

答案 0 :(得分:1)

看起来您已被列入该子网中路由器级别的黑名单,可能是因为您(或子网中的其他人)违反了使用条款robots.txt,网站地图中指定的最大抓取频率,或类似的东西。

解决方案不是技术性的,而是社交性的:联系网站管理员,保持正确的道歉,了解你(或你的一个同事)做错了什么,令人信服地承诺永远不会再做,再次道歉,直到他们删除黑名单。如果您可以为网站管理员提供任何理由为什么他们应该让您抓取该网站(例如,您的抓取功能会为搜索引擎带来流量,或类似内容),那就更好了! - )

相关问题