如何使用python为远程Selenium WebDrive配置特殊的代理设置?

时间:2018-07-05 19:40:58

标签: python docker selenium-webdriver http-proxy remotewebdriver

我要在此先感谢大家的耐心帮助我,并为成为新手致歉。如果我发布的任何内容有误或缺少此文章,请告诉我,这样我可以附加它,而不是投反对票。

我将从描述正在使用的基础结构开始。它包含多个代理服务器,这些代理服务器使用负载平衡器将用户身份验证转发到直接绑定到活动目录的适当代理。身份验证使用用于登录请求所来自的计算机的凭据和源IP。服务器将IP和凭据缓存60分钟。我正在为此过程专门使用一个测试帐户,并且仅在单元测试服务器上使用。

我正在使用docker容器在远程服务器上使用Selenium Webdriver进行一些自动化。我正在使用python作为脚本语言。我正在尝试在内部和外部网页/应用程序上运行测试。我可以使用以下脚本在内部网站上进行基本测试:

注意:10.1.54.118是托管带有selenium Web驱动程序的docker容器的服务器

from selenium import webdriver

from selenium.webdriver.common.desired_capabilities import DesiredCapabilities

browser = webdriver.Remote(command_executor='http://10.1.54.118:4444/wd/hub', desired_capabilities=DesiredCapabilities.CHROME)
browser.get("http://10.0.0.2")

print (browser.find_element_by_tag_name('body').text)

bodyText = browser.find_element_by_tag_name('body').text

print (bodyText)

if 'Hello' in bodyText:
    print ('Found hello in body')
else:
    print ('Hello not found in body')

browser.quit()

该脚本能够访问内部网页并在其上打印所有文本。

但是,尝试在外部网站上运行测试脚本时遇到问题。

我尝试了以下文章和教程,但似乎对我不起作用。

我尝试过的文章和教程:

我尝试创建4个版本的脚本来访问外部网站(例如google.com),并仅打印其中的文本。每个脚本都返回超时错误。对于发布大量代码,我深表歉意,但也许社区能够看到我在编码方面出了什么问题。

代码1:

from selenium import webdriver

from selenium.webdriver.common.desired_capabilities import DesiredCapabilities

PROXY = "10.32.51.169:3128" # IP:PORT or HOST:PORT
desired_capabilities = webdriver.DesiredCapabilities.CHROME.copy()

desired_capabilities['proxy'] = {
    "httpProxy":PROXY,
    "ftpProxy":PROXY,
    "sslProxy":PROXY,
    "socksUsername":"myusername",
    "socksPassword":"mypassword",
    "noProxy":None,
    "proxyType":"MANUAL",
    "class":"org.openqa.selenium.Proxy",
    "autodetect":False
    }
browser = webdriver.Remote('http://10.1.54.118:4444/wd/hub', desired_capabilities)
browser.get("https://www.google.com/")

print (browser.find_element_by_tag_name('body').text)

bodyText = browser.find_element_by_tag_name('body').text

print (bodyText)

if 'Hello' in bodyText:
    print ('Found hello in body')
else:
    print ('Hello not found in body')

browser.quit()

我的代码在任何方面都不正确吗?我是否可以将配置参数传递给docker chrome selenium webdriver,还是需要在构建容器之前使用预先配置的代理设置来构建它?我期待着您的答复以及能为我指明正确方向的任何帮助。

此致

一个谦虚的学生

1 个答案:

答案 0 :(得分:0)

在这方面有点晚,但是有一些想法和改进:

  1. 从socks代理配置中删除用户/密码,并将其添加到代理连接uri。
  2. 使用硒代理对象帮助抽象代理功能的其他部分。
  3. 将该方案添加到代理连接字符串中。
  4. 使用try / finally块来确保浏览器即使出现任何故障也可以退出

注意...我正在使用Python3,Selenium版本3.141.0,为了简洁/简单起见,我省略了FTP配置:

from selenium import webdriver

from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
from selenium.webdriver.common.proxy import Proxy

# Note the addition of the scheme (http) and the user/pass into the connection string.    
PROXY = 'http://myusername:mypassword@10.32.51.169:3128'

# Use the selenium Proxy object to add proxy capabilities
proxy_config = {'httpProxy': PROXY, 'sslProxy': PROXY}
proxy_object = Proxy(raw=proxy_config)
capabilities = DesiredCapabilities.CHROME.copy()
proxy_object.add_to_capabilities(capabilities)

browser = webdriver.Remote('http://10.1.54.118:4444/wd/hub', desired_capabilities=capabilities)

# Use try/finally so the browser quits even if there is an exception
try:
    browser.get("https://www.google.com/")

    print(browser.find_element_by_tag_name('body').text)

    bodyText = browser.find_element_by_tag_name('body').text

    print(bodyText)

    if 'Hello' in bodyText:
        print('Found hello in body')
    else:
        print('Hello not found in body')
finally:
    browser.quit()