我正在尝试抓取一个包含200多个<li class="classToGet">
元素的网页,这些元素在向下滚动时会加载AJAX。当我使用urllib2.urlopen(url).read()
阅读网站的来源时,我只能获得最初的100 <li>
。
当我在浏览器中关闭JavaScript并转到该页面时,会显示所有200多个<li>
。如何在加载页面时为urllib2禁用JavaScript?
感谢您的帮助。
答案 0 :(得分:0)
我认为您与http标头User-Agent有关 我做了一个小项目,从Google图片中获取图片。 开始时,我使用了以下头部:
Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.71 Safari/537.36
但是,我得到的页面在Pinterest工作,这不是我想要的。因为它必须得到页面。所以我将User-Agent值更改为另一个值:
Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.5) Gecko/20091102 Firefox/3.5.5 (.NET CLR 3.5.30729)
然后,现在可以找到它。它只能给我我想要的东西。