硒滚动后报废原始HTML

时间:2019-07-05 07:49:11

标签: python

我正在使用BeautifulSoup和硒从页面上抓取Facebook提要。但是当我滚动大约4-5倍后报废时遇到的问题是我从驱动程序获取页面源,这是动态的,即我获取的html包含javascript和css而不是原始html,我需要为美丽的汤。我在SO中经历了其他问题,但是找不到类似的问题。

这是将页面滚动大约5次的代码,但是page.source返回非静态html,而不是滚动后需要的原始html。

def page_scroll(rangeValue=5):
    driver.get("https://www.facebook.com/"+facebook_username_lists[0])
    for i in range(0,rangeValue):
        driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
        time.sleep(3)
    time.sleep(10)
    print(driver.page_source)
page_scroll()

0 个答案:

没有答案