URL链接的不规则行为-多页网页抓取

时间:2019-10-27 08:58:49

标签: python-3.x web-scraping

我正在编写Python代码,以使用Beautiful Soup从Sharepoint网站获取数据。

每个页面都有10行详细信息。因此,我应该收集到最后一页的所有链接,然后获取所需的全部数据列表。

问题

  1. 当我尝试使用Python代码打开page2 urllink时,它仍在打开page1(基本url)链接。

  2. 当我从浏览器(page1)链接中打开基本URL并使用下一步按钮从那里打开时,我能够导航至page2。但是,当我打开一个新选项卡并直接复制粘贴page2链接时,它会刷新并打开,并打开page1(基本URL)链接。

代码:

import requests
from requests_ntlm import HttpNtlmAuth

session = requests.Session()

session.auth = HttpNtlmAuth('username','password')

r = session.get("UrlLinkOfPage2")

print(r.status_code)

print(r.content)

1 个答案:

答案 0 :(得分:0)

某些网站的问题在于他们希望发送一些特殊的标头,因此请在浏览器中打开网站首页(如果需要,请登录),然后打开中的 network 标签。开发人员工具,并检查您的浏览器访问第二页的请求。然后复制它要发送的所有标头,并在包含这些标头的python代码中创建一个字典,例如:

my_headers = {
    'some-header': value,
    'another-header': another-value
}

然后使用 requests 库在请求页面时发送这些标头,例如:

response = session.get(second_page_url, headers=my_headers)