某些网站被阻止使用普通浏览器,并且在隐身模式下运行良好

时间:2017-08-23 15:50:13

标签: python web-scraping scrapy

我试图使用python从网站抓取一些数据。在最初阶段,它运行良好,但最近它开始阻止脚本请求以及我的系统中的浏览器。 我知道目标网站会有一些阻止机制,但我可以从隐身模式浏览同一个网站,没有任何问题。

我该如何解决这个问题?我尝试使用隐身浏览器中使用的一些标头值,但没有结果。

任何帮助表示感谢。

为参考添加尝试的标题值

  

"接受":" / ","接受编码":" gzip,deflate,br&# 34 ;,   "接受语言":" en-US,en; q = 0.8"," Cache-Control":" no-cache" ,   "连接":"保持活力","内容长度":" 8",   "内容类型":"应用程序/ X WWW的窗体-urlencoded&#34 ;,   "曲奇":" JSESSIONID = 6个+ b5vN7wfvBUHfQOK0d7bls;   TS01747e58 = 01d69c8eb5156bae15c47b3d2578bc88361c69fb48d9ec815b7e3e48aaab4afb974a4d8f5b448e558bfcd1da01f6246b460e8d88a2f87a126f095a23ccdd3d50439c61ecc9;   BIGipServerjboss = 759271946.20480.0000;   TS011968e6_28 = 01fabe97068921f1b57e70731e79cb34f9d73bcf98d7d1f65c7eb46ba87d3e6e751dec2ee2109c7bc65b7e3cdb05d397b47bdaf21e;   TS011968e6 = 01d69c8eb5a3b1ea223ea72b0b4ace9a0ac39268b9d9ec815b7e3e48aaab4afb974a4d8f5b4d619ddc6882f5ecbd3007321d57f557b77bb39ff7ab95e2310bfa4be41364ef&#34 ;,   "主持人":" abc.co.in"," Origin":" https://abc.co.in"," Pragma& #34;:"无缓存&#34 ;,   " Referer":" https://abc.jsp"," User-Agent":" Mozilla / 5.0(X11; Linux   x86_64)AppleWebKit / 537.36(KHTML,与Gecko一样)Chrome / 52.0.2743.116   Safari / 537.36"," X-Requested-With":" XMLHttpRequest",   " X-TS-AJAX请求":"真",

1 个答案:

答案 0 :(得分:5)

如果它在incognito mode上运行,则问题更可能是指Cookie。

如果您尝试抓取的内容正常,请尝试在settings.py中指定:

COOKIES_ENABLED = False