PYTHON 3-如何通过网络抓取受密码保护的网站?

时间:2020-10-28 12:54:27

标签: python web-scraping

我正在尝试访问我的工作中的网站,但是该网站的用户名/密码受保护。用户/密码弹出窗口也如图所示。Login image 我附上我的代码以查看该网站。 我可以看到HTML代码,但是显示错误“ 401授权要求”。 你能帮忙吗?

import requests
from bs4 import BeautifulSoup as bs

r = requests.get("http://10.75.19.101/mfgindex", auth=('root', 'password'))

# Convert to beautiful soup object

soup = bs(r.content, features="html.parser")

# print
print(soup.prettify())

1 个答案:

答案 0 :(得分:0)

通常,如果站点受密码保护,则显然不能绕过登录过程。这迫使您利用RPA流程,在该流程中,代码将控制Web浏览器并利用真实的登录名和密码来执行登录操作,然后使用BeautifulSoup自动浏览所需的页面并从HTML中提取所需的元素。

为此,我建议尝试硒(https://www.selenium.dev/

一个简短的教程在这里:

https://medium.com/ymedialabs-innovation/web-scraping-using-beautiful-soup-and-selenium-for-dynamic-page-2f8ad15efe25

前段时间我尝试过解决类似的任务,效果很好