Python WebDriver如何打印整页源码(html)

时间:2014-12-10 22:17:54

标签: python selenium-webdriver webdriver

我正在使用Python 2.7和Selenium WebDriver。 我的问题是如何使用print方法打印整个页面源。 有webdriver方法page_source,但它返回WebDriver,我不知道如何将其转换为String或只是在终端中打印

2 个答案:

答案 0 :(得分:32)

webdriver实例上的

.page_source就是您所需要的:

>>> from selenium import webdriver
>>> driver = webdriver.Firefox()
>>> driver.get('http://google.com')
>>> print(driver.page_source)
<!DOCTYPE html>
<html xmlns="http://www.w3.org/1999/xhtml" lang="en" itemtype="http://schema.org/WebPage" itemscope=""><head><meta name="descri
...
:before,.vscl.vslru div.vspib{top:-4px}</style></body></html>

答案 1 :(得分:-1)

您也可以在不使用浏览器的情况下获取HTML页面源。请求模块允许您这样做。

 import requests

 res = requests.get('https://google.com')
 res.raise_for_status()  # this line trows an exception if an error on the 
                         # connection to the page occurs. 
 print(res.text)