使用硒和Tor旋转IP

时间:2019-07-02 11:58:01

标签: python selenium tor

我有一个用于配置特定HTTP请求的硒配置,仅当我单击网站的特定REACT元素时才发送此请求。 这就是为什么我使用硒的原因……找不到其他方法。

每次我想废弃此特定的HTTP请求时,我都必须更新IP。 为此,我使用Tor。 当我启动python脚本时,它工作得很好,Tor设置了一个新的ip并抓取了我想要的内容。 我在脚本中添加了try / catch,如果我的脚本第一次无法正常运行,它将重试10次。

问题是当我的脚本再次尝试时,IP不再旋转。...

如何实现?



import time
from random import randint
from time import sleep
import os
import subprocess
from selenium.webdriver.firefox.firefox_profile import FirefoxProfile
from seleniumwire import webdriver
from selenium.webdriver.firefox.options import Options
from fake_useragent import UserAgent



options_wire = {
    'proxy': {
        'http': 'http://localhost:8088',
        'https': 'https://localhost:8088',
        'no_proxy': ''
    }
}

def firefox_init():
    os.system("killall tor")
    time.sleep(1)
    ua = UserAgent()
    user_agent = ua.random
    subprocess.Popen(("tor --HTTPTunnelPort 8088"),shell=True)
    time.sleep(2)
    return user_agent


def profile_firefox():
    profile = FirefoxProfile()
    profile.set_preference('permissions.default.image', 2)
    profile.set_preference('dom.ipc.plugins.enabled.libflashplayer.so', 'false')
    profile.set_preference("general.useragent.override", firefox_init())
    profile.set_preference("driver.privatebrowsing.autostart", True)
    profile.update_preferences()
    return profile



def options_firefox():
    options = Options()
    options.headless = False
    return options


def firefox_closing(driver):
    driver.quit()
    time.sleep(3)
    os.system('killall tor')



def headless(url):
    for x in range(0, 10):
        profile = profile_firefox()
        options = options_firefox()
        driver = webdriver.Firefox(seleniumwire_options=options_wire,firefox_profile=profile, options=options, executable_path='******/headless_browser/geckodriver')
        driver.set_window_position(0, 0)
        driver.set_window_size(randint(1024, 2060), randint(1024, 4100))
        # time.sleep(randint(3,10))
        driver.get(url)
        time.sleep(randint(3,8))
        try:
            if driver.find_element_by_xpath("//*[@id=\"*******\"]/main/div/div/div[1]/div[2]/form/div/div[2]/div[1]/button"):
                # driver.find_element_by_xpath("//*[@id=\"*******\"]/main/div/div/div[1]/div[2]/form/div/div[2]/div[1]/button").click()
                # time.sleep(randint(8,10))
                driver.find_element_by_xpath("//*[@id=\"*******\"]/main/div/div/div[1]/div[2]/form/div/div[2]/div[1]/button").click()
                time.sleep(randint(3,6))
                for request in driver.requests:
                    if request.path == "https://api.*********.***/*******/*********":
                        request_api = request
                        raw = str(request_api.body)
                        request_api = raw.split(('b\''))
                        payload_raw = request_api[1]
                        payload = payload_raw[:-1]
                        if payload:
                            header = request.headers
                            print(header, payload)
                            break
                else:
                    continue
                break

        except:
            firefox_closing(driver)
            time.sleep(5)
        finally:
            firefox_closing(driver)


    return header, payload


url="https://check.torproject.org/?lang=fr"
headless(url)

谢谢

2 个答案:

答案 0 :(得分:1)

好吧,由于您杀死了tor进程,所以我可能不知道它不会更新IP地址。即使您将tor作为服务添加到Systemd中,也肯定会在您重新启动服务时进行更新。但我可能会给你一些指示:

  • 在伪造的代理模块上,尝试禁用缓存以避免在/ tmp目录中缓存或使用托管的缓存服务器:

    ua = UserAgent(cache=False, use_cache_server=False)

  • 将Tor放在systemd上,并避免使用os.system(),它不安全,并且在直接在脚本上输入系统命令时会出现很多缺陷。使用服务文件,您可能只需重新启动服务即可更新IP地址。您可能想使用Arch Linux Wiki参考在here中配置自己的TOR环境!

答案 1 :(得分:0)

为此,我使用了另一个代理,硒线非常好,但是需要修复。

我已经使用Browsermob代理,并设置了要使用的上游代理。 结果是您可以捕获每个HTTP请求或响应以对其进行解析,并且ip每次都旋转并使用HTTPTunnelPort配置。

    proxy_params = {'httpProxy': 'localhost:8088', 'httpsProxy': 'localhost:8088'}
    proxy_b = server.create_proxy(params=proxy_params)

谢谢