使用MechanicalSoup保持登录状态

时间:2020-07-14 04:38:59

标签: python-3.x beautifulsoup python-requests mechanicalsoup

我正在尝试构建一个网站抓取工具,以从页面中提取URL。当我在常规网站上但要登录时,该刮板可以正常工作,以便可以使用该网站上的过滤器功能。我使用MechanicalSoup登录,登录成功,但是当我使用请求移至页面时,我不再登录。请帮助!

这是我的代码:

from urllib.request import urlopen as uReq
from bs4 import BeautifulSoup as soup
import mechanicalsoup

URL = "https://www.morphmarket.com/us/search?q=&sex=&maturity=0&cat=31&min_genes=0&max_genes=9&traits=&neg_traits=&min_price=0&max_price=1000000&cur=USD&sort=nfs&epoch=2&store=&country=&export=&layout=grid&page=1"
LOGIN = "_______"
PASSWORD = "_______"

browser = mechanicalsoup.StatefulBrowser()
browser.open(URL)
browser.select_form('form[action="/accounts/login/"]')
browser.get_current_form().print_summary()
browser["login"] = LOGIN
browser["password"] = PASSWORD
response = browser.submit_selected()
print(browser.get_url())

snake_urls = []
for i in range(1, 3):
    number = str(i)
    my_url = 'https://www.morphmarket.com/us/search?q=&sex=&maturity=0&cat=31&min_genes=0&max_genes=9&traits=&neg_traits=&min_price=0&max_price=1000000&cur=USD&sort=nfs&epoch=2&store=&country=&export=&layout=grid&page=' + number
    uClient = uReq(my_url)
    page_html = uClient.read()
    uClient.close()
    page_soup = soup(page_html, "html.parser")
    containers = page_soup.findAll("div",{"class":"col-md-3 col-sm-4 col-ms-4 col-xs-6 item-col move-up"})

然后我继续进行抓取...

1 个答案:

答案 0 :(得分:0)

我认为您首先要进行机械连接,但是在使用新请求打开链接之后。如果您使用机械汤,则不应使用request或beautifulsoup,因为机械汤已经基于这些库。 因此,您没有使用新的请求连接进行连接! 因此,直接调用browser.open(my_url),并通过浏览器对象使用beautifulsoup。