Selenium:获取滚动页面的HTML

时间:2019-02-17 20:25:10

标签: python selenium

我是Selenium的新手,我正尝试滚动到Twitter个人资料的底部,因此我可以加载所有推文进行Web抓取。我需要获取已滚动页面的HTML,我尝试过:

Traceback (most recent call last):
  File "/home/k/Desktop/test.py", line 10, in <module>
    html = scroll.page_source
AttributeError: 'WebElement' object has no attribute 'page_source'

结果:

browser.page_source

此外,make omap3_beagle_defconfig 对我不起作用,因为它只会给我尚未滚动的页面。

1 个答案:

答案 0 :(得分:0)

您正尝试从page_source中获得WebElement,因此出现错误:

  

AttributeError:“ WebElement”对象没有属性“ page_source”

在您的情况下,您应该使用get_attributeinnerHTML

from selenium import webdriver
from selenium.webdriver.common.keys import Keys


browser = webdriver.PhantomJS(service_log_path=os.path.devnull)
browser.get('https://twitter.com/earthpix/media')  # This page is just an example.
scroll = browser.find_element_by_tag_name('html')
scroll.send_keys(Keys.END)
html = scroll.get_attribute('innerHTML')

print (html)

希望这对您有帮助!