我想加载一个网页并列出该页面的所有已加载资源(javascript / images / css)。我使用此代码加载页面:
from selenium import webdriver
driver = webdriver.PhantomJS()
driver.get('http://example.com')
上面的代码完美无缺,我可以对HTML页面进行一些处理。问题是,如何列出该页面加载的所有资源?我想要这样的东西:
['http://example.com/img/logo.png',
'http://example.com/css/style.css',
'http://example.com/js/jquery.js',
'http://www.google-analytics.com/ga.js']
我也对其他解决方案开放,比如使用PySide.QWebView
模块。我只想列出页面加载的资源。
答案 0 :(得分:4)
这不是Selenium解决方案,但它可以与python和PhantomJS一起使用。
这个想法与“网络”中的完全相同。 Chrome开发者工具中的标签。 为此,我们必须听取网页提出的每一个请求。
使用phantomjs,可以使用此脚本完成,并在您方便的时候使用它:
// getResources.js
// Usage:
// ./phantomjs --ssl-protocol=any --web-security=false getResources.js your_url
// the ssl-protocol and web-security flags are added to dismiss SSL errors
var page = require('webpage').create();
var system = require('system');
var urls = Array();
// function to check if the requested resource is an image
function isImg(url) {
var acceptedExts = ['jpg', 'jpeg', 'png'];
var baseUrl = url.split('?')[0];
var ext = baseUrl.split('.').pop().toLowerCase();
if (acceptedExts.indexOf(ext) > -1) {
return true;
} else {
return false;
}
}
// function to check if an url has a given extension
function isExt(url, ext) {
var baseUrl = url.split('?')[0];
var fileExt = baseUrl.split('.').pop().toLowerCase();
if (ext == fileExt) {
return true;
} else {
return false;
}
}
// Listen for all requests made by the webpage,
// (like the 'Network' tab of Chrome developper tools)
// and add them to an array
page.onResourceRequested = function(request, networkRequest) {
// If the requested url if the one of the webpage, do nothing
// to allow other ressource requests
if (system.args[1] == request.url) {
return;
} else if (isImg(request.url) || isExt(request.url, 'js') || isExt(request.url, 'css')) {
// The url is an image, css or js file
// add it to the array
urls.push(request.url)
// abort the request for a better response time
// can be omitted for collecting asynchronous loaded files
networkRequest.abort();
}
};
// When all requests are made, output the array to the console
page.onLoadFinished = function(status) {
console.log(JSON.stringify(urls));
phantom.exit();
};
// If an error occur, dismiss it
page.onResourceError = function(){
return false;
}
page.onError = function(){
return false;
}
// Open the web page
page.open(system.args[1]);
现在用python调用代码:
from subprocess import check_output
import json
out = check_output(['./phantomjs', '--ssl-protocol=any', \
'--web-security=false', 'getResources.js', your_url])
data = json.loads(out)
希望这有帮助
答案 1 :(得分:1)
webdribver中没有能够返回网页所有资源的功能,但你能做的就是这样:
from selenium.webdriver.common.by import By
images = driver.find_elements(By.TAG_NAME, "img")
和脚本和链接相同。
答案 2 :(得分:1)
这是一个使用Selenium和ChromeDriver的纯python解决方案。
工作原理:
multiprocessing
来避免将脚本分成两部分,但您也可以将代理部分放在一个单独的脚本中)webdriver
,使用步骤1中的代理配置,从标准输入中读取URL并按顺序加载它们。要使用此脚本,只需在标准输入中键入URL,然后在标准输出中吐出加载的URL(带有相应的引用)。 代码:
#!/usr/bin/python3
import sys
import time
import socketserver
import http.server
import urllib.request
from multiprocessing import Process
from selenium import webdriver
PROXY_PORT = 8889
PROXY_URL = 'localhost:%d' % PROXY_PORT
class Proxy(http.server.SimpleHTTPRequestHandler):
def do_GET(self):
sys.stdout.write('%s → %s\n' % (self.headers.get('Referer', 'NO_REFERER'), self.path))
self.copyfile(urllib.request.urlopen(self.path), self.wfile)
sys.stdout.flush()
@classmethod
def target(cls):
httpd = socketserver.ThreadingTCPServer(('', PROXY_PORT), cls)
httpd.serve_forever()
p_proxy = Process(target=Proxy.target)
p_proxy.start()
webdriver.DesiredCapabilities.CHROME['proxy'] = {
"httpProxy":PROXY_URL,
"ftpProxy":None,
"sslProxy":None,
"noProxy":None,
"proxyType":"MANUAL",
"class":"org.openqa.selenium.Proxy",
"autodetect":False
}
driver = webdriver.Chrome('/usr/lib/chromium-browser/chromedriver')
for url in sys.stdin:
driver.get(url)
driver.close()
del driver
p_proxy.terminate()
p_proxy.join()
# avoid warnings about selenium.Service not shutting down in time
time.sleep(3)