使用urllib2阅读时禁用JavaScript

时间:2012-06-22 08:39:22

标签: javascript python urllib2

我正在尝试抓取一个包含200多个<li class="classToGet">元素的网页,这些元素在向下滚动时会加载AJAX。当我使用urllib2.urlopen(url).read()阅读网站的来源时,我只能获得最初的100 <li>

当我在浏览器中关闭JavaScript并转到该页面时,会显示所有200多个<li>。如何在加载页面时为urllib2禁用JavaScript?

感谢您的帮助。

1 个答案:

答案 0 :(得分:0)

我认为您与http标头User-Agent有关 我做了一个小项目,从Google图片中获取图片。 开始时,我使用了以下头部:

Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.71 Safari/537.36

但是,我得到的页面在Pinterest工作,这不是我想要的。因为它必须得到页面。所以我将User-Agent值更改为另一个值:

Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.5) Gecko/20091102 Firefox/3.5.5 (.NET CLR 3.5.30729)

然后,现在可以找到它。它只能给我我想要的东西。