Question

使用selenium启动Firefox时，如何获取该页面上显示的所有文本以将其保存在文本文件中？

Answer 1

试一试

from selenium import webdriver as driver

browser = driver.Firefox()
browser.get("http://www.google.com")
print browser.find_element_by_xpath("html").text

Answer 2

如果html是您唯一要检索的内容，请使用httplib2。正如文档中所述，最简单的用法是：

import httplib2
h = httplib2.Http(".cache")
resp, content = h.request("http://example.org/", "GET")

Answer 3

Selenium对于这类事情来说太过分了。您可以在python中使用内置的httplib，因此您不具备任何依赖关系。

from httplib import HTTPConnection

conn = HTTPConnection("example.com")
conn.request("GET", "/") # the path or the complete url
print conn.getresponse().read()

如果需要进行基本身份验证，则只需要另外提供base64 encoded request headers。

如果需要自定义身份验证，这当然行不通。

如何使用selenium和python从网页获取文本？

3 个答案: