我正在编写网页抓取代码,但出现上述错误。
import requests
import lxml
import bs4
title = ''
date = ''
text = ''
top = []
link = []
web_link = 'https://timesofindia.indiatimes.com/{}/'
web_link = web_link.format('india')
req = requests.get(web_link)
soup = bs4.BeautifulSoup(req.text, 'lxml')
topi = soup.find('div', {'class':'main-content'})
topi = topi.find_all('span', {'class':'w_tle'})
for i in range(len(topi)):
top = topi[i].find('a').get('href')
link.append('https://timesofindia.indiatimes.com' + top)
for i in range(len(link)):
rq = requests.get(link[i])
sp = bs4.BeautifulSoup(rq.text, 'lxml')
title = sp.find('div', {'class':'_2NFXP'})
title = title.find('h1',{'class':'_23498'})
追溯:
Traceback (most recent call last):
File "C:\Users\xxx\xxx\py\so65702068.py", line 26, in <module>
title=title.find('h1',{'class':'_23498'})
AttributeError: 'NoneType' object has no attribute 'find'
我是网络抓取的新手,我不明白为什么会显示此错误。
答案 0 :(得分:1)
您应该尝试自己从错误中学习。 Python 错误还指定了错误的位置(行)。
无论如何,您的最后一行导致了问题。您基本上将 sp.find()
函数应用于另一个 sp.find()
函数。
当 sp.find('div',{'class':'_2NFXP'})
返回 None
时,它证明了您得到的错误。