HttpClient - 返回的内容与浏览器不同

时间:2016-11-07 14:07:43

标签: c# web-scraping dotnet-httpclient incapsula

我正在向kicksusa.com提出请求。如果我从任何浏览器发出请求,我会得到完整的预期HTML,但是,我似乎无法以返回相同HTML的方式模拟请求,而是得到“请求不成功”。消息。

感谢任何帮助

我的代码:

HttpClientHandler httpClientHandler = new HttpClientHandler()
{
    //Proxy = proxy,
    AllowAutoRedirect = true,
    MaxAutomaticRedirections = 15,
    AutomaticDecompression = DecompressionMethods.GZip | DecompressionMethods.Deflate | DecompressionMethods.None
};

var client = new HttpClient();
client.DefaultRequestHeaders.Add("Host", "www.kicksusa.com");
client.DefaultRequestHeaders.Add("Connection", "keep-alive");
client.DefaultRequestHeaders.Add("Upgrade-Insecure-Requests", "1");
client.DefaultRequestHeaders.Add("User-Agent", "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.87 Safari/537.36");
client.DefaultRequestHeaders.Add("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8");
client.DefaultRequestHeaders.Add("Accept-Encoding", "gzip, deflate, sdch");
client.DefaultRequestHeaders.Add("Accept-Language", "en-GB,en-US;q=0.8,en;q=0.6");


var _response = await client.GetAsync("http://www.kicksusa.com/jordan-craig/oil-stain-slub-tee-army-green-8909ag.html");

if (_response.IsSuccessStatusCode)
{
    var _html = await _response.Content.ReadAsStringAsync();
}

Fiddler跟踪标题:

Host: www.kicksusa.com
Connection: keep-alive
Upgrade-Insecure-Requests: 1
User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.87 Safari/537.36
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8
Accept-Encoding: gzip, deflate, sdch
Accept-Language: en-GB,en-US;q=0.8,en;q=0.6

1 个答案:

答案 0 :(得分:3)

本网站使用Incapsula中的一些专用技术来阻止对网站的自动访问。

在第一次请求时,网站会返回包含嵌入式iframe的网络文档。只有在加载iframe源时,才会设置cookie并重定向到页面。然后所有进一步的请求将立即成功,因为浏览器发送cookie信息。

为了规避机制,你必须在第一次请求后加载iframe,记住cookie然后发送cookie以获取所有进一步的请求。第一个答案中还涉及很多JavaScript代码,可能必须执行以便Incapsula检查才能成功。

但是,当网站专门使用此类技术来阻止自动访问其内容时,任何绕过此机制的企图都必须被视为不受欢迎的并且是一种犯罪行为。未经其所有者的批准,您不应尝试自动从网站收集数据,特别是在使用Incapusla这样的技术使其变得更加困难时,不应该这样做。

有关详细信息,请参阅Incapsula员工的this answer