Question

我是Selenium的新手，我正尝试滚动到Twitter个人资料的底部，因此我可以加载所有推文进行Web抓取。我需要获取已滚动页面的HTML，我尝试过：

Traceback (most recent call last):
  File "/home/k/Desktop/test.py", line 10, in <module>
    html = scroll.page_source
AttributeError: 'WebElement' object has no attribute 'page_source'

结果：

browser.page_source

此外，make omap3_beagle_defconfig对我不起作用，因为它只会给我尚未滚动的页面。

Answer 1

您正尝试从page_source中获得WebElement，因此出现错误：

AttributeError：“ WebElement”对象没有属性“ page_source”

在您的情况下，您应该使用get_attribute和innerHTML：

from selenium import webdriver
from selenium.webdriver.common.keys import Keys


browser = webdriver.PhantomJS(service_log_path=os.path.devnull)
browser.get('https://twitter.com/earthpix/media')  # This page is just an example.
scroll = browser.find_element_by_tag_name('html')
scroll.send_keys(Keys.END)
html = scroll.get_attribute('innerHTML')

print (html)

希望这对您有帮助！

Selenium：获取滚动页面的HTML

1 个答案: