Question

首先，我认为值得一提，我知道有很多类似的问题，但是没有一个对我有用...

我正在尝试从需要首先使用Google帐户登录的网站上抓取用户信息。

在测试中，我使用此页面上的scraper我的用户设置作为示例。主页为“ {https://www.futmondo.com”，目标页面为“ http://www.futmondo.com/user/settings”

这是我尝试过的：

import requests
from bs4 import BeautifulSoup

# TEST 1
payload = {
    'action': 'login',
    'identifier': 'xxxxxxxxx@gmail.com',
    'password': 'xxxxxxxxx'
}

# TEST 2
payload = {
    'action': 'login',
    'username': 'xxxxxxxxx@gmail.com',
    'password': 'xxxxxxxxx'
}

with requests.Session() as s:

s.post('https://www.futmondo.com', data=payload)    
base_page = s.get('http://www.futmondo.com/user/settings')

soup = BeautifulSoup(base_page.content, 'html.parser')
print(soup.title)
print(soup.text)

但是我得到的HTML代码没有用户值。

我认为问题是我不知道哪个是“主要登录页面”，当我单击“ Jugar”（播放）时，他们将我重定向到另一页来写用户（First user web ，First user html code），当我写用户时，他们将我重定向到另一个页面来写密码（Second password web，Second password html code）。

我登录后也已经在html代码中搜索了这些“用户名”和“密码”键，但我只能找到它：html code once logged in 我也阅读了一些有关HTTP身份验证和cookie之间差异的讨论。仍然没有一个起作用。

请提供任何帮助。非常感谢。

使用python抓取需要Google登录的网站

0 个答案: