我想抓取这个网站https://hdyc.neis-one.org/,其中有两页登录身份验证

时间:2019-03-25 10:21:30

标签: python web-scraping login

库('XML') 库('rvest')

登录<-“ https://www.openstreetmap.org/login?cookie_test=true&referer=%2Foauth%2Fauthorize%3Foauth_callback%3Dhttps%253A%252F%252Fhdyc.neis-one.org%252Fland.html%26oauth_token%3DDfkqaWSgSDkhReTb75sOaq22QO6f6txdxFk4qJR7

pgsession <-html_session(登录)

pgform <-html_form(pgsession)[[1]]

filled_form <-set_values(pgform,用户名=“ ********”,密码=“ **********”) Submit_form(pgsession,filled_form)

html_object <-read_html(“ https://hdyc.neis-one.org/?**********”)

1 个答案:

答案 0 :(得分:0)

尝试对您的硒代码进行泊坞处理,以便它可以在任何需要的地方运行。这里有些事情可能会有所帮助。

  1. this one一样创建Dockerfile。

  2. 在初始化驱动程序时添加以下代码行。

    chrome_options = webdriver.ChromeOptions()
    chrome_options.add_argument('--no-sandbox')
    chrome_options.add_argument('--headless')
    chrome_options.add_argument('--disable-gpu')
    driver = webdriver.Chrome(chrome_options=chrome_options)