如何使用selenium和python从网页获取文本?

时间:2014-08-01 09:39:49

标签: python firefox selenium

使用selenium启动Firefox时,如何获取该页面上显示的所有文本以将其保存在文本文件中?

3 个答案:

答案 0 :(得分:1)

试一试

from selenium import webdriver as driver

browser = driver.Firefox()
browser.get("http://www.google.com")
print browser.find_element_by_xpath("html").text

答案 1 :(得分:1)

如果html是您唯一要检索的内容,请使用httplib2。正如文档中所述,最简单的用法是:

import httplib2
h = httplib2.Http(".cache")
resp, content = h.request("http://example.org/", "GET")

答案 2 :(得分:1)

Selenium对于这类事情来说太过分了。您可以在python中使用内置的httplib,因此您不具备任何依赖关系。

from httplib import HTTPConnection

conn = HTTPConnection("example.com")
conn.request("GET", "/") # the path or the complete url
print conn.getresponse().read()

如果需要进行基本身份验证,则只需要另外提供base64 encoded request headers

如果需要自定义身份验证,这当然行不通。