Question

我正在尝试访问我的工作中的网站，但是该网站的用户名/密码受保护。用户/密码弹出窗口也如图所示。Login image 我附上我的代码以查看该网站。我可以看到HTML代码，但是显示错误“ 401授权要求”。你能帮忙吗？

import requests
from bs4 import BeautifulSoup as bs

r = requests.get("http://10.75.19.101/mfgindex", auth=('root', 'password'))

# Convert to beautiful soup object

soup = bs(r.content, features="html.parser")

# print
print(soup.prettify())

Answer 1

通常，如果站点受密码保护，则显然不能绕过登录过程。这迫使您利用RPA流程，在该流程中，代码将控制Web浏览器并利用真实的登录名和密码来执行登录操作，然后使用BeautifulSoup自动浏览所需的页面并从HTML中提取所需的元素。

为此，我建议尝试硒（https://www.selenium.dev/）

一个简短的教程在这里：

https://medium.com/ymedialabs-innovation/web-scraping-using-beautiful-soup-and-selenium-for-dynamic-page-2f8ad15efe25

前段时间我尝试过解决类似的任务，效果很好

PYTHON 3-如何通过网络抓取受密码保护的网站？

1 个答案: