我是python编程的新手。我正在学习网站抓取。我们的办公室只有一台服务器供员工使用。我想把它报废。但是发生了一些错误,我无法获取HTML内容。 这是代码-
import requests
from bs4 import BeautifulSoup
page= requests.get("http://xxxx.aspx")
soup=BeautifulSoup(page.content, 'html.parser')
print(soup)
它给出HTML内容,编译后给出: Photo.png
答案 0 :(得分:0)
您没有提供任何凭据。网站如何识别您?您可以尝试将mechanise
与BeautifulSoup结合使用。它允许您提供用户名和密码来访问该网站。
import requests
from bs4 import BeautifulSoup
import mechanise
page = mechanize.Browser()
page.Open("http://xxxx.aspx")
page.form["user"] = "YOUR_USER_NAME"
page.form["password"] = "YOUR_PASSWORD"