使用硒和代理获取请求正文

时间:2018-11-29 08:19:47

标签: python-3.x selenium selenium-webdriver browsermob-proxy

我希望能够使用代理后面的硒来获取特定子请求的主体。

现在我正在使用python +硒+ chromedriver。使用日志记录,我可以获取每个子请求的标头,但不能获取正文。我的日志记录设置:

  

caps ['loggingPrefs'] =   {'performance':'ALL',                           '浏览器':'所有'}

     

caps ['perfLoggingPrefs'] = {“ enableNetwork”:是的,                               “ enablePage”:是的,                               “ enableTimeline”:True}

我知道有几种与硒形成HAR的选择:

  

window.foo = HAR.triggerExport()。then(harLog => {return(harLog);});   返回window.foo;

不幸的是,我在返回的数据中看不到响应的正文。

  • 使用browsermob代理。该解决方案似乎完全正常,但是我没有找到使Browsermob代理在代理后面工作的方法。

所以问题是:如何在下载带有硒并使用代理的网页期间提出的请求,以获取特定网络响应的正文。

UPD:实际上,通过har-export-trigger我得到了响应正文,但不是全部:我需要的响应正文在json中,它的MIME类型是'text / html; charset = utf-8',并且我生成的HAR文件中缺少该文件,因此解决方案仍然丢失。

UPD2:经过进一步调查,我发现,即使打开har-export-trigger附加组件,我的桌面firefox上也缺少响应正文,因此此解决方案可能是死胡同({{3} })

UPD3:仅当使用最新版本的har-export-trigger时,才能看到此错误。带有0.6.0版。一切正常。

因此,对于未来的Google员工:您可以使用har-export-trigger v。0.6.0。或接受的答案中的方法。

1 个答案:

答案 0 :(得分:0)

我实际上已经完成了使用问题中提到的工具实现硒HAR脚本的工作。从har-export-trigger和BrowserMob获取的HAR均已通过Google HAR Analyser进行了验证。

使用硒,壁虎驱动程序和har-export-trigger的类:

class MyWebDriver(object):
    # a inner class to implement custom wait
    class PageIsLoaded(object):
        def __call__(self, driver):
            state = driver.execute_script('return document.readyState;')
            MyWebDriver._LOGGER.debug("checking document state: " + state)
            return state == "complete"

    _FIREFOX_DRIVER = "geckodriver"
    # load HAR_EXPORT_TRIGGER extension
    _HAR_TRIGGER_EXT_PATH = os.path.abspath(
        "har_export_trigger-0.6.1-an+fx_orig.xpi")
    _PROFILE = webdriver.FirefoxProfile()
    _PROFILE.set_preference("devtools.toolbox.selectedTool", "netmonitor")
    _CAP = DesiredCapabilities().FIREFOX
    _OPTIONS = FirefoxOptions()
    # add runtime argument to run with devtools opened
    _OPTIONS.add_argument("-devtools")
    _LOGGER = my_logger.get_custom_logger(os.path.basename(__file__))

    def __init__(self, log_body=False):
        self.browser = None
        self.log_body = log_body

    # return the webdriver instance
    def get_instance(self):
        if self.browser is None:
            self.browser = webdriver.Firefox(capabilities=
                                             MyWebDriver._CAP,
                                             executable_path=
                                             MyWebDriver._FIREFOX_DRIVER,
                                             firefox_options=
                                             MyWebDriver._OPTIONS,
                                             firefox_profile=
                                             MyWebDriver._PROFILE)
            self.browser.install_addon(MyWebDriver._HAR_TRIGGER_EXT_PATH,
                                       temporary=True)
            MyWebDriver._LOGGER.info("Web Driver initialized.")
        return self.browser

    def get_har(self):
        # JSON.stringify has to be called to return as a string
        har_harvest = "myString = HAR.triggerExport().then(" \
                      "harLog => {return JSON.stringify(harLog);});" \
                      "return myString;"
        har_dict = dict()
        har_dict['log'] = json.loads(self.browser.execute_script(har_harvest))
        # remove content body
        if self.log_body is False:
            for entry in har_dict['log']['entries']:
                temp_dict = entry['response']['content']
                try:
                    temp_dict.pop("text")
                except KeyError:
                    pass
        return har_dict

    def quit(self):
        self.browser.quit()
        MyWebDriver._LOGGER.warning("Web Driver closed.")

还添加了BrowserMob代理以供您参考的子类:

class MyWebDriverWithProxy(MyWebDriver):

    _PROXY_EXECUTABLE = os.path.join(os.getcwd(), "venv", "lib",
                                     "browsermob-proxy-2.1.4", "bin",
                                     "browsermob-proxy")

    def __init__(self, url, log_body=False):
        super().__init__(log_body=log_body)
        self.server = Server(MyWebDriverWithProxy._PROXY_EXECUTABLE)
        self.server.start()
        self.proxy = self.server.create_proxy()
        self.proxy.new_har(url,
                           options={'captureHeaders': True,
                                    'captureContent': self.log_body})
        super()._LOGGER.info("BrowserMob server started")
        super()._PROFILE.set_proxy(self.proxy.selenium_proxy())

    def get_har(self):
        return self.proxy.har

    def quit(self):
        self.browser.quit()
        self.proxy.close()
        MyWebDriver._LOGGER.info("BroswerMob server and Web Driver closed.")