我希望能够使用代理后面的硒来获取特定子请求的主体。
现在我正在使用python +硒+ chromedriver。使用日志记录,我可以获取每个子请求的标头,但不能获取正文。我的日志记录设置:
caps ['loggingPrefs'] = {'performance':'ALL', '浏览器':'所有'}
caps ['perfLoggingPrefs'] = {“ enableNetwork”:是的, “ enablePage”:是的, “ enableTimeline”:True}
我知道有几种与硒形成HAR的选择:
window.foo = HAR.triggerExport()。then(harLog => {return(harLog);}); 返回window.foo;
不幸的是,我在返回的数据中看不到响应的正文。
所以问题是:如何在下载带有硒并使用代理的网页期间提出的请求,以获取特定网络响应的正文。
UPD:实际上,通过har-export-trigger我得到了响应正文,但不是全部:我需要的响应正文在json中,它的MIME类型是'text / html; charset = utf-8',并且我生成的HAR文件中缺少该文件,因此解决方案仍然丢失。
UPD2:经过进一步调查,我发现,即使打开har-export-trigger附加组件,我的桌面firefox上也缺少响应正文,因此此解决方案可能是死胡同({{3} })
UPD3:仅当使用最新版本的har-export-trigger时,才能看到此错误。带有0.6.0版。一切正常。
因此,对于未来的Google员工:您可以使用har-export-trigger v。0.6.0。或接受的答案中的方法。
答案 0 :(得分:0)
我实际上已经完成了使用问题中提到的工具实现硒HAR脚本的工作。从har-export-trigger和BrowserMob获取的HAR均已通过Google HAR Analyser进行了验证。
使用硒,壁虎驱动程序和har-export-trigger的类:
class MyWebDriver(object):
# a inner class to implement custom wait
class PageIsLoaded(object):
def __call__(self, driver):
state = driver.execute_script('return document.readyState;')
MyWebDriver._LOGGER.debug("checking document state: " + state)
return state == "complete"
_FIREFOX_DRIVER = "geckodriver"
# load HAR_EXPORT_TRIGGER extension
_HAR_TRIGGER_EXT_PATH = os.path.abspath(
"har_export_trigger-0.6.1-an+fx_orig.xpi")
_PROFILE = webdriver.FirefoxProfile()
_PROFILE.set_preference("devtools.toolbox.selectedTool", "netmonitor")
_CAP = DesiredCapabilities().FIREFOX
_OPTIONS = FirefoxOptions()
# add runtime argument to run with devtools opened
_OPTIONS.add_argument("-devtools")
_LOGGER = my_logger.get_custom_logger(os.path.basename(__file__))
def __init__(self, log_body=False):
self.browser = None
self.log_body = log_body
# return the webdriver instance
def get_instance(self):
if self.browser is None:
self.browser = webdriver.Firefox(capabilities=
MyWebDriver._CAP,
executable_path=
MyWebDriver._FIREFOX_DRIVER,
firefox_options=
MyWebDriver._OPTIONS,
firefox_profile=
MyWebDriver._PROFILE)
self.browser.install_addon(MyWebDriver._HAR_TRIGGER_EXT_PATH,
temporary=True)
MyWebDriver._LOGGER.info("Web Driver initialized.")
return self.browser
def get_har(self):
# JSON.stringify has to be called to return as a string
har_harvest = "myString = HAR.triggerExport().then(" \
"harLog => {return JSON.stringify(harLog);});" \
"return myString;"
har_dict = dict()
har_dict['log'] = json.loads(self.browser.execute_script(har_harvest))
# remove content body
if self.log_body is False:
for entry in har_dict['log']['entries']:
temp_dict = entry['response']['content']
try:
temp_dict.pop("text")
except KeyError:
pass
return har_dict
def quit(self):
self.browser.quit()
MyWebDriver._LOGGER.warning("Web Driver closed.")
还添加了BrowserMob代理以供您参考的子类:
class MyWebDriverWithProxy(MyWebDriver):
_PROXY_EXECUTABLE = os.path.join(os.getcwd(), "venv", "lib",
"browsermob-proxy-2.1.4", "bin",
"browsermob-proxy")
def __init__(self, url, log_body=False):
super().__init__(log_body=log_body)
self.server = Server(MyWebDriverWithProxy._PROXY_EXECUTABLE)
self.server.start()
self.proxy = self.server.create_proxy()
self.proxy.new_har(url,
options={'captureHeaders': True,
'captureContent': self.log_body})
super()._LOGGER.info("BrowserMob server started")
super()._PROFILE.set_proxy(self.proxy.selenium_proxy())
def get_har(self):
return self.proxy.har
def quit(self):
self.browser.quit()
self.proxy.close()
MyWebDriver._LOGGER.info("BroswerMob server and Web Driver closed.")