Crawler / CURL看到边缘网站包含

时间:2017-02-01 10:39:00

标签: curl web-crawler wget edge-side-includes

我正在尝试通过curl / wget检索网站,但不是我在浏览器中看到的真实内容,而是看到了ESI标签。

网址为http://www.patagonia.com/home/?setCountryCode=US&setLocaleCode=en_US&setLocaleCodeSelect=en

<html xmlns="http://www.w3.org/1999/xhtml" class="no-js" lang="en"><head/><body onload="submitWait();true;"><esiU00003Aremove>

</esiU00003Aremove>



<esiU00003Acomment text=" ------------- begin html ---------- ">  

<esiU00003Acomment text=" --- CUSTOMIZE HEAD HERE --- ">

  <meta charset="utf-8"/>   <meta content="IE=edge,chrome=1" http-equiv="X-UA-Compatible"/>

    <title>Hang Tight! Routing to checkout...</title> ......

我已经通过postman尝试了它,只发送了Accept和Connection cookie,我看到了正常的HTML结果。我不太清楚发生了什么事。有没有人知道要发送什么标题或者为wget / curl做些什么来正确获取页面?

1 个答案:

答案 0 :(得分:0)

有些网站不喜欢Curl的用户代理。尝试:

curl -v -H 'User-Agent: Mozilla/5.0 (X11; Linux x86_64; rv:45.0) Gecko/20100101 Firefox/45.0' 'http://www.patagonia.com/home/?setCountryCode=US&setLocaleCode=en_US&setLocaleCodeSelect=en'