为什么python抓取结果与浏览器不同

时间:2018-08-31 06:01:39

标签: python web-scraping beautifulsoup selenium-chromedriver referrer

我可以在浏览器中浏览页面https://www.xiami.com/artist/O9fc383,但是当我通过chrome驱动程序解析页面时,我得到了如下所示的其他来源,因此我无法抓取该页面,该怎么办?浏览器中没有此表格的来源。

...
<form action="//www.xiami.com:443/artist/O9fc383/_____tmd_____/verify/" id="nc-verify-form" method="GET">
...
<script>
    var referrer=document.referrer;
    if (referrer && referrer.indexOf("__tmd__")===-1 ){
        localStorage.x5referer = document.referrer;
    }else{
        localStorage.x5referer = window.location.href;
    }
</script>

1 个答案:

答案 0 :(得分:0)

您使用哪个lib进行抓取?如果您使用漂亮的汤或urllib,则无法抓取javascript生成的代码。您将不得不使用诸如silenium之类的东西 Scraping a JS-Rendered Page