Question

import requests
from bs4 import  BeautifulSoup as soup

my_url='http://cvr.ac.in/home4/index.php/eee-sp-870859316/eeefaculty'
page=requests.get(my_url)
data=page.text
page_soup=soup(data,'html.parser')
cont=page_soup.select("div",{"class": "item-page"})
print(cont)

我正在尝试将教师详细信息的名称，名称，个人资料刮到一个csv文件中。当我使用上述代码时，它会抛出空[]。任何帮助表示赞赏。

Answer 1

该页面正在寻找一组已定义的有效用户代理。例如，

import requests
from bs4 import BeautifulSoup as bs

r = requests.get('http://cvr.ac.in/home4/index.php/eee-sp-870859316/eeefaculty', headers = {'User-Agent': 'Chrome/80.0.3987.163'})
soup = bs(r.content, 'lxml')
print(soup.select('.item-page'))

否则，您将收到406响应，并且您在html中寻找的类不存在。

使用python进行网页抓取会抛出空数组

1 个答案: