Question

尝试抓取公司链接，但无法抓取。

我直到第9页都获得了链接，但之后没有第10页，则没有获得公司链接，而不是获得类别链接。

from bs4 import BeautifulSoup

import requests

source = requests.get('https://ieema.org/ieema-members/page/10/',headers={'User-Agent': 'Googlebot'}).text

soup = BeautifulSoup(source,'lxml')

for data in soup.find_all('a',class_='item'):

         print(data['href'])

请帮助我解决这个问题。

Answer 1

“ User-Agent请求标头包含一个特征字符串，该特征字符串使网络协议对等方可以标识请求软件用户代理的应用程序类型，操作系统，软件供应商或软件版本。在服务器端验证User-Agent标头是常见的操作，因此请确保使用有效的浏览器的User-Agent字符串，以避免被阻止。”

Source

从以下位置更改标题：

headers={'User-Agent': 'Googlebot'}

收件人：

headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}

示例：

from bs4 import BeautifulSoup

import requests

source = requests.get('https://ieema.org/ieema-members/page/10/',headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}).text

soup = BeautifulSoup(source,'lxml')

for data in soup.find_all('a',class_='item'):

         print(data['href'])

尝试取消链接，但未使用python beautifulsoup

1 个答案: