我是Selenium的新手,我正尝试滚动到Twitter个人资料的底部,因此我可以加载所有推文进行Web抓取。我需要获取已滚动页面的HTML,我尝试过:
Traceback (most recent call last):
File "/home/k/Desktop/test.py", line 10, in <module>
html = scroll.page_source
AttributeError: 'WebElement' object has no attribute 'page_source'
结果:
browser.page_source
此外,make omap3_beagle_defconfig
对我不起作用,因为它只会给我尚未滚动的页面。
答案 0 :(得分:0)
您正尝试从page_source
中获得WebElement
,因此出现错误:
AttributeError:“ WebElement”对象没有属性“ page_source”
在您的情况下,您应该使用get_attribute
和innerHTML
:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
browser = webdriver.PhantomJS(service_log_path=os.path.devnull)
browser.get('https://twitter.com/earthpix/media') # This page is just an example.
scroll = browser.find_element_by_tag_name('html')
scroll.send_keys(Keys.END)
html = scroll.get_attribute('innerHTML')
print (html)
希望这对您有帮助!