我知道内容类型可以从
获得response = urllib2.urlopen(url)
content-type = response.info().getheader('Content-type')
现在,我需要执行js代码,所以我选择selenium和Phantomjs来获取网页。
driver = webdriver.PhantomJS()
driver.get(url)
source = driver.page_source
如何在不下载网页两次的情况下从源获取内容类型?我知道我可以将response.read()保存为html文件,然后驱动程序呈现本地html文件而不再下载它。但是,它太慢了。有什么建议?
答案 0 :(得分:1)
Selenium没有得到标题,但您可以向请求头部请求:
import requests
print(requests.head(url).headers["Content-Type"])
你可以使用httplib2,urliib2等。有很多answers here显示如何使用各种lib请求头部。