Question

我正在编写Python代码，以使用Beautiful Soup从Sharepoint网站获取数据。

每个页面都有10行详细信息。因此，我应该收集到最后一页的所有链接，然后获取所需的全部数据列表。

问题

当我尝试使用Python代码打开page2 urllink时，它仍在打开page1（基本url）链接。
当我从浏览器（page1）链接中打开基本URL并使用下一步按钮从那里打开时，我能够导航至page2。但是，当我打开一个新选项卡并直接复制粘贴page2链接时，它会刷新并打开，并打开page1（基本URL）链接。

代码：

import requests
from requests_ntlm import HttpNtlmAuth

session = requests.Session()

session.auth = HttpNtlmAuth('username','password')

r = session.get("UrlLinkOfPage2")

print(r.status_code)

print(r.content)

Answer 1

某些网站的问题在于他们希望发送一些特殊的标头，因此请在浏览器中打开网站首页（如果需要，请登录），然后打开中的 network 标签。开发人员工具，并检查您的浏览器访问第二页的请求。然后复制它要发送的所有标头，并在包含这些标头的python代码中创建一个字典，例如：

my_headers = {
    'some-header': value,
    'another-header': another-value
}

然后使用 requests 库在请求页面时发送这些标头，例如：

response = session.get(second_page_url, headers=my_headers)

URL链接的不规则行为-多页网页抓取

1 个答案: