使用python进行网页抓取会抛出空数组

时间:2020-04-18 01:52:28

标签: beautifulsoup

import requests
from bs4 import  BeautifulSoup as soup

my_url='http://cvr.ac.in/home4/index.php/eee-sp-870859316/eeefaculty'
page=requests.get(my_url)
data=page.text
page_soup=soup(data,'html.parser')
cont=page_soup.select("div",{"class": "item-page"})
print(cont)

我正在尝试将教师详细信息的名称,名称,个人资料刮到一个csv文件中。 当我使用上述代码时,它会抛出空[]。 任何帮助表示赞赏。

1 个答案:

答案 0 :(得分:0)

该页面正在寻找一组已定义的有效用户代理。例如,

import requests
from bs4 import BeautifulSoup as bs

r = requests.get('http://cvr.ac.in/home4/index.php/eee-sp-870859316/eeefaculty', headers = {'User-Agent': 'Chrome/80.0.3987.163'})
soup = bs(r.content, 'lxml')
print(soup.select('.item-page'))

否则,您将收到406响应,并且您在html中寻找的类不存在。