使用Web驱动程序从python中的源页面获取所有文本

时间:2016-08-12 21:24:42

标签: python selenium-webdriver webdriver

我正在使用selenium webdriver(firefox)从网站抓取一些数据。我刚刚发现打开网页比打开网页源更慢。换句话说,转到'www.google.com'比转到'view-source:www.google.com'

需要更长的时间

所以我想知道我是否可以使用webdriver从源页面获取所有文本,而不是普通页面。

我尝试使用driver.page_source作为源页面,但它返回了一些我不想要的混乱。

1 个答案:

答案 0 :(得分:1)

如果您只需要使用来源requests。用pip安装它:

pip install requests

并像这样使用它:

import requests

r = requests.get("http://google.com/")
# r.content, r.text, r.json(), r.status can be used

有关高级用法,请参阅上面的文档。

注意:如果您需要解析html使用BeautifulSoup并将其传递给r.content