如何从selenium page_source获取内容类型

时间:2016-03-24 09:18:18

标签: python selenium phantomjs content-type

我知道内容类型可以从

获得
response = urllib2.urlopen(url)
content-type = response.info().getheader('Content-type')

现在,我需要执行js代码,所以我选择selenium和Phantomjs来获取网页。

driver = webdriver.PhantomJS()
driver.get(url)
source = driver.page_source

如何在不下载网页两次的情况下从源获取内容类型?我知道我可以将response.read()保存为html文件,然后驱动程序呈现本地html文件而不再下载它。但是,它太慢了。有什么建议?

1 个答案:

答案 0 :(得分:1)

Selenium没有得到标题,但您可以向请求头部请求:

import  requests

print(requests.head(url).headers["Content-Type"])

你可以使用httplib2,urliib2等。有很多answers here显示如何使用各种lib请求头部。