我试图使用python从网站抓取一些数据。在最初阶段,它运行良好,但最近它开始阻止脚本请求以及我的系统中的浏览器。 我知道目标网站会有一些阻止机制,但我可以从隐身模式浏览同一个网站,没有任何问题。
我该如何解决这个问题?我尝试使用隐身浏览器中使用的一些标头值,但没有结果。
任何帮助表示感谢。
为参考添加尝试的标题值
"接受":" / ","接受编码":" gzip,deflate,br&# 34 ;, "接受语言":" en-US,en; q = 0.8"," Cache-Control":" no-cache" , "连接":"保持活力","内容长度":" 8", "内容类型":"应用程序/ X WWW的窗体-urlencoded&#34 ;, "曲奇":" JSESSIONID = 6个+ b5vN7wfvBUHfQOK0d7bls; TS01747e58 = 01d69c8eb5156bae15c47b3d2578bc88361c69fb48d9ec815b7e3e48aaab4afb974a4d8f5b448e558bfcd1da01f6246b460e8d88a2f87a126f095a23ccdd3d50439c61ecc9; BIGipServerjboss = 759271946.20480.0000; TS011968e6_28 = 01fabe97068921f1b57e70731e79cb34f9d73bcf98d7d1f65c7eb46ba87d3e6e751dec2ee2109c7bc65b7e3cdb05d397b47bdaf21e; TS011968e6 = 01d69c8eb5a3b1ea223ea72b0b4ace9a0ac39268b9d9ec815b7e3e48aaab4afb974a4d8f5b4d619ddc6882f5ecbd3007321d57f557b77bb39ff7ab95e2310bfa4be41364ef&#34 ;, "主持人":" abc.co.in"," Origin":" https://abc.co.in"," Pragma& #34;:"无缓存&#34 ;, " Referer":" https://abc.jsp"," User-Agent":" Mozilla / 5.0(X11; Linux x86_64)AppleWebKit / 537.36(KHTML,与Gecko一样)Chrome / 52.0.2743.116 Safari / 537.36"," X-Requested-With":" XMLHttpRequest", " X-TS-AJAX请求":"真",
答案 0 :(得分:5)
如果它在incognito mode
上运行,则问题更可能是指Cookie。
如果您尝试抓取的内容正常,请尝试在settings.py
中指定:
COOKIES_ENABLED = False