在Python3中抓取/抓取网站的问题

时间:2020-04-23 23:18:08

标签: python-3.x web-scraping web-crawler

我正尝试使用python3抓取一个名为“ Workana”(https://workana.com)的网站。 我需要登录,然后在网站上剪贴我想要的信息。 我试图使用Facebook登录,因为常规登录已加密。我建立了一个连接和一个Session,并使用我的凭据成功连接到Facebook。 但是,当我输入Facebook登录URL(“ https://workana.com/login/Facebook”)时,它并没有连接。 如果已在浏览器中连接到Facebook,并转到上面的URL,则会自动连接到该站点,所以我的问题是:为什么不连接?

代码:

import http.cookiejar
import requests
from bs4 import BeautifulSoup

cj = http.cookiejar.CookieJar()
headers={'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.47 Safari/537.36'}
payload = {'email':"Your email",'pass':"Your pass"}
mySession = requests.Session()

response = mySession.post('https://m.facebook.com/login.php', cookies=cj, data=payload, headers=headers)
# print(response.content)

page = mySession.get('https://workana.com/login/Facebook')
soup = BeautifulSoup(page.content, 'html.parser')
print(soup.prettify())
print("Actual Page: " + page.url)

糟糕:请注意,您在第10行添加了注释,您将获得不同的结果

0 个答案:

没有答案