首先,我认为值得一提,我知道有很多类似的问题,但是没有一个对我有用...
我正在尝试从需要首先使用Google帐户登录的网站上抓取用户信息。
在测试中,我使用此页面上的scraper我的用户设置作为示例。主页为“ {https://www.futmondo.com”,目标页面为“ http://www.futmondo.com/user/settings”
这是我尝试过的:
import requests
from bs4 import BeautifulSoup
# TEST 1
payload = {
'action': 'login',
'identifier': 'xxxxxxxxx@gmail.com',
'password': 'xxxxxxxxx'
}
# TEST 2
payload = {
'action': 'login',
'username': 'xxxxxxxxx@gmail.com',
'password': 'xxxxxxxxx'
}
with requests.Session() as s:
s.post('https://www.futmondo.com', data=payload)
base_page = s.get('http://www.futmondo.com/user/settings')
soup = BeautifulSoup(base_page.content, 'html.parser')
print(soup.title)
print(soup.text)
但是我得到的HTML代码没有用户值。
我认为问题是我不知道哪个是“主要登录页面”,当我单击“ Jugar”(播放)时,他们将我重定向到另一页来写用户(First user web ,First user html code),当我写用户时,他们将我重定向到另一个页面来写密码(Second password web,Second password html code)。
我登录后也已经在html代码中搜索了这些“用户名”和“密码”键,但我只能找到它:html code once logged in 我也阅读了一些有关HTTP身份验证和cookie之间差异的讨论。仍然没有一个起作用。
请提供任何帮助。非常感谢。