Question

我是python编程的新手。我正在学习网站抓取。我们的办公室只有一台服务器供员工使用。我想把它报废。但是发生了一些错误，我无法获取HTML内容。这是代码-

import requests
from bs4 import BeautifulSoup
page= requests.get("http://xxxx.aspx")
soup=BeautifulSoup(page.content, 'html.parser')
print(soup)

它给出HTML内容，编译后给出： Photo.png

Answer 1

您没有提供任何凭据。网站如何识别您？您可以尝试将mechanise与BeautifulSoup结合使用。它允许您提供用户名和密码来访问该网站。

import requests
from bs4 import BeautifulSoup
import mechanise

page = mechanize.Browser()
page.Open("http://xxxx.aspx")
page.form["user"] = "YOUR_USER_NAME"
page.form["password"] = "YOUR_PASSWORD"

您无权查看此页面。 HTTP错误401.2-未经授权：由于服务器配置，访问被拒绝

1 个答案: