我正在通过命令driver.get(url)
使用Selenium来抓取大量网站,我需要知道所提取网页的大小(以字节为单位)。
有没有简单的方法可以做到这一点?如果没有,你们是如何做到的?
答案 0 :(得分:0)
您可以使用此
logging_prefs = {'performance' : 'INFO'}
caps = DesiredCapabilities.CHROME.copy()
caps['loggingPrefs'] = logging_prefs
driver = webdriver.Chrome(desired_capabilities=caps)
要计算总数:
total_bytes = []
for entry in driver.get_log('performance'):
if "Network.dataReceived" in str(entry):
r = re.search(r'encodedDataLength\":(.*?),', str(entry))
total_bytes.append(int(r.group(1)))
mb = round((float(sum(total_bytes) / 1000) / 1000), 2)
为了将来参考,可以通过Python从浏览器请求此信息。但是,在撰写本文时,尚无浏览器支持此特定数据的功能。
可以找到更多信息here。