如何立即获取完整的网页代码?

时间:2018-11-05 00:07:48

标签: html web-scraping progressive-download

我正在尝试抓取Github的提交页面以进行一些分析。页面在这里

YARN-8569

但是,有两个标签称为“ js-diff-progressive-container”,每个标签都有许多子标签。见下文

html page snapshot

当我使用urllib2.Request()和urllib2.urlopen()来获取html页面并使用beautifulsoup解析html代码时,似乎只能得到第一个“ js-diff-progressive-container”标签,并且它的子标签。对于第二个,我将获得一个标签,该标签的类为“ js-diff-progressive-retry”。 解析代码在这里:

config:clear

有人告诉我,由于此标签是动态加载的,因此无法一次获取所有html代码。如何获取整个html页面代码?

0 个答案:

没有答案