这是我的抓取代码:
import requests
from bs4 import BeautifulSoup as soup
def get_emails(_links:list):
for i in range(len(_links)):
new_d = soup(requests.get(_links[i]).text, 'html.parser').find_all('a', {'class':'my_modal_open'})
if new_d:
yield new_d[-1]['title']
start=20
while True:
d = soup(requests.get('http://www.schulliste.eu/type/gymnasien/?bundesland=&start=20').text, 'html.parser')
results = [i['href'] for i in d.find_all('a')][52:-9]
results = [link for link in results if link.startswith('http://')]
print(list(get_emails(results)))
next_page=soup.find('div', {'class': 'paging'}, 'weiter')
if next_page:
d=next_page.get('href')
start+=20
else:
break
多数民众赞成在我得到的错误: AttributeError:“ str”对象没有属性“ find_all”
当您按下按钮“ weiter”(下一页)时,urlending从“ ... start = 20”更改为“ start = 40”。 由于每个站点有20个结果,因此需要20秒的步骤。 有人知道错误的原因吗?
答案 0 :(得分:0)
您将“汤”放入名为“ d”的变量中。
因此替换以下行:
next_page=soup.find('div', {'class': 'paging'}, 'weiter')
与此:
next_page = d.find('div', {'class': 'paging'}, 'weiter')