Incapsula是一个Web应用程序交付平台,可用于防止抓取。
我在Python和Scrapy工作,我找到了this,但它似乎已经过时了,不能使用当前的Incapsula。我用我的target website测试了Scrapy中间件,我得到了IndexErrors,因为中间件无法提取一些混淆参数。
是否可以调整此仓库或现在是否在其操作模式下更改了Incapsula?
我也很好奇我如何能够复制为cURL"从chrome dev工具到我的目标页面的请求,以及chrome响应包含用户内容,但curl响应是" incapsula事件"页。这是用于最初清除饼干的铬合金.....
curl 'https://www.radarcupon.es/tienda/fotoprix.com'
-H 'pragma: no-cache' -H 'dnt: 1' -H 'accept-encoding: gzip, deflate, br'
-H 'accept-language: en-GB,en-US;q=0.9,en;q=0.8'
-H 'upgrade-insecure-requests: 1'
-H 'user-agent: Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/62.0.3202.94 Chrome/62.0.3202.94 Safari/537.36'
-H 'accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8'
-H 'cache-control: no-cache' -H 'authority: www.radarcupon.es'
--compressed
我期待两者的第一个请求返回类似javascript挑战的内容,这会设置一个cookie,但它现在似乎没有像现在这样工作?
答案 0 :(得分:0)
给出具体答案很困难,因为Incapsula具有非常详细的规则引擎,可用于阻止或挑战请求。 Cookie检测和Javascript支持是用于识别可疑流量的两个最常见的数据点。用户代理字符串,标头和源自客户端IP地址的行为(每分钟请求数,AJAX请求等)也可能导致Incapsula挑战流量。如果DDoS保护功能没有相对于站点看到的流量进行合理配置,则会主动阻止请求。