使用python抓取需要Google登录的网站

时间:2018-09-02 12:53:34

标签: python html parsing html-parsing

首先,我认为值得一提,我知道有很多类似的问题,但是没有一个对我有用...

我正在尝试从需要首先使用Google帐户登录的网站上抓取用户信息。

在测试中,我使用此页面上的scraper我的用户设置作为示例。主页为“ {https://www.futmondo.com”,目标页面为“ http://www.futmondo.com/user/settings

这是我尝试过的:

import requests
from bs4 import BeautifulSoup

# TEST 1
payload = {
    'action': 'login',
    'identifier': 'xxxxxxxxx@gmail.com',
    'password': 'xxxxxxxxx'
}

# TEST 2
payload = {
    'action': 'login',
    'username': 'xxxxxxxxx@gmail.com',
    'password': 'xxxxxxxxx'
}

with requests.Session() as s:

s.post('https://www.futmondo.com', data=payload)    
base_page = s.get('http://www.futmondo.com/user/settings')

soup = BeautifulSoup(base_page.content, 'html.parser')
print(soup.title)
print(soup.text)

但是我得到的HTML代码没有用户值。

我认为问题是我不知道哪个是“主要登录页面”,当我单击“ Jugar”(播放)时,他们将我重定向到另一页来写用户(First user webFirst user html code),当我写用户时,他们将我重定向到另一个页面来写密码(Second password webSecond password html code)。

我登录后也已经在html代码中搜索了这些“用户名”和“密码”键,但我只能找到它:html code once logged in 我也阅读了一些有关HTTP身份验证和cookie之间差异的讨论。仍然没有一个起作用。

请提供任何帮助。非常感谢。

0 个答案:

没有答案