Question

我正在尝试抓取一个包含200多个<li class="classToGet">元素的网页，这些元素在向下滚动时会加载AJAX。当我使用urllib2.urlopen(url).read()阅读网站的来源时，我只能获得最初的100 <li>。

当我在浏览器中关闭JavaScript并转到该页面时，会显示所有200多个<li>。如何在加载页面时为urllib2禁用JavaScript？

感谢您的帮助。

Answer 1

我认为您与http标头User-Agent有关我做了一个小项目，从Google图片中获取图片。开始时，我使用了以下头部：

Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.71 Safari/537.36

但是，我得到的页面在Pinterest工作，这不是我想要的。因为它必须得到页面。所以我将User-Agent值更改为另一个值：

Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.5) Gecko/20091102 Firefox/3.5.5 (.NET CLR 3.5.30729)

然后，现在可以找到它。它只能给我我想要的东西。