我正在使用selenium webdriver(firefox)从网站抓取一些数据。我刚刚发现打开网页比打开网页源更慢。换句话说,转到'www.google.com'
比转到'view-source:www.google.com'
所以我想知道我是否可以使用webdriver从源页面获取所有文本,而不是普通页面。
我尝试使用driver.page_source作为源页面,但它返回了一些我不想要的混乱。
答案 0 :(得分:1)
如果您只需要使用来源requests。用pip安装它:
pip install requests
并像这样使用它:
import requests
r = requests.get("http://google.com/")
# r.content, r.text, r.json(), r.status can be used
有关高级用法,请参阅上面的文档。
注意:如果您需要解析html使用BeautifulSoup并将其传递给r.content
。