Question

我正尝试使用python3抓取一个名为“ Workana”（https://workana.com）的网站。我需要登录，然后在网站上剪贴我想要的信息。我试图使用Facebook登录，因为常规登录已加密。我建立了一个连接和一个Session，并使用我的凭据成功连接到Facebook。但是，当我输入Facebook登录URL（“ https://workana.com/login/Facebook”）时，它并没有连接。如果已在浏览器中连接到Facebook，并转到上面的URL，则会自动连接到该站点，所以我的问题是：为什么不连接？

代码：

import http.cookiejar
import requests
from bs4 import BeautifulSoup

cj = http.cookiejar.CookieJar()
headers={'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.47 Safari/537.36'}
payload = {'email':"Your email",'pass':"Your pass"}
mySession = requests.Session()

response = mySession.post('https://m.facebook.com/login.php', cookies=cj, data=payload, headers=headers)
# print(response.content)

page = mySession.get('https://workana.com/login/Facebook')
soup = BeautifulSoup(page.content, 'html.parser')
print(soup.prettify())
print("Actual Page: " + page.url)

糟糕：请注意，您在第10行添加了注释，您将获得不同的结果

在Python3中抓取/抓取网站的问题

0 个答案: