我正在编写Python代码,以使用Beautiful Soup从Sharepoint网站获取数据。
每个页面都有10行详细信息。因此,我应该收集到最后一页的所有链接,然后获取所需的全部数据列表。
问题
当我尝试使用Python代码打开page2 urllink时,它仍在打开page1(基本url)链接。
当我从浏览器(page1)链接中打开基本URL并使用下一步按钮从那里打开时,我能够导航至page2。但是,当我打开一个新选项卡并直接复制粘贴page2链接时,它会刷新并打开,并打开page1(基本URL)链接。
代码:
import requests
from requests_ntlm import HttpNtlmAuth
session = requests.Session()
session.auth = HttpNtlmAuth('username','password')
r = session.get("UrlLinkOfPage2")
print(r.status_code)
print(r.content)
答案 0 :(得分:0)
某些网站的问题在于他们希望发送一些特殊的标头,因此请在浏览器中打开网站首页(如果需要,请登录),然后打开中的 network 标签。开发人员工具,并检查您的浏览器访问第二页的请求。然后复制它要发送的所有标头,并在包含这些标头的python代码中创建一个字典,例如:
my_headers = {
'some-header': value,
'another-header': another-value
}
然后使用 requests 库在请求页面时发送这些标头,例如:
response = session.get(second_page_url, headers=my_headers)