我正在尝试简单地退出页面的html(它是一个工作的东西,所以不幸的是我无法提供链接),但是只返回了一部分html。该网站上的其他页面似乎按预期工作。
我知道urllib2不处理javascript(urllib2 not returning full webpage),但是当我在Firefox浏览器中禁用javascript时,页面会正确加载。
然后我在这篇帖子(urllib2 not retrieving entire HTTP response)中尝试了@Jed Smith和@John Weldon的答案。我确实使用urllib2.build_opener(proxy, urllib2.HTTPCookieProcessor(self.cj)).open(url)
代替urllib2.urlopen(url)
代理和Cookie,不确定这是否有所作为。
返回的html似乎在源代码的第803行随机切断,共有1634行。
有没有办法获取所有HTML代码?