Python selenium webscraping与谷歌翻译扩展

时间:2017-08-31 02:19:59

标签: python selenium

我正在尝试在全球范围内搜索多个网页。所以,我想使用Google翻译扩展程序翻译网站,然后使用selenium抓取页面。

我做了一些研究,并想出了如何在运行selenium时添加扩展名。

  1. download google translate extension

  2. Create .crx file

  3. add extension to selenium

  4. 但我不知道如何自动执行扩展(默认情况下,它什么都不做)

    from selenium import webdriver
    from selenium.webdriver.common.by import By
    from selenium.webdriver.support.wait import WebDriverWait
    from selenium.webdriver.support import expected_conditions as EC
    
    option = webdriver.ChromeOptions()
    option.add_extension('./translate.crx')
    driver = webdriver.Chrome(executable_path = "./chromedriver", chrome_options = option)
    driver.get("naver.com")
    WebDriverWait(driver, 3).until(EC.presence_of_element_located((By.TAG_NAME, "body")))
    
    ''' @@@@ Here I want something like@@@@
    driver.execute_extension("translate this page")
    '''
    
    print driver.find_element_by_tag_name("body").text
    driver.quit()
    

    此外,我发现扩展程序不会翻译原始HTML,因此我可能必须使用其他方法进行抓取。 (也许传递ctrl-a,ctrl-c,ctrl-v而不是by_tag_name(" body"))

    你可以给我任何指针吗?

0 个答案:

没有答案