我正在尝试从educationworld.in网站上删除数据,以获取所有学校的名称,地址和评级表。
我利用Python和Beautiful Soup4来提取我的数据。我已达到提取数据并将其导入CSV的目的,但我现在遇到从网站的多个页面抓取数据的问题。我想提取所有学校但我的剧本仅限于一页。我想将它循环播放,它将捕获网站中找到的所有页面中的所有数据。
下面是我的剧本。我需要有关创建代码的帮助,这些代码将从网站捕获所有数据,而不仅仅是一个站点而是多个站点。
import requests
from BeautifulSoup import BeautifulSoup
for i in range(0,21):
if i%5==0:
url='http://www.educationworld.in/institute%2Fsearch%2Fdata%2Fsrch%5Bid_city%5D%3D388%26srch%5Bhmsrchcity%5D%3DFaridabad+%28Haryana%29%26srch%5Bcourse%5D%3D39%26srch%5Bhomepg%5D%3D1/pgn/1','{}','5','institute_searchInstitutes'.format(i)
response = requests.get(url)
html = response.content
soup = BeautifulSoup(html)
print soup.title
listing = soup.findAll('div', attrs = {'class': 'srch_box_bg mrgn_btm5 pdng3 p_bgcl'})
for rec in listing:
name = rec.find('div', attrs = {'class': ' fltlft'}).a.text
ratings = rec.find('div', attrs = {'class': 'fltlft mrgn_rht5'}).text
address = rec.find('div', attrs = {'class': 'lnhit_20 wrd_wrp'}).text
print name, "\t", ratings, "\t", address
print "\n"'
我想要0,5,10代替{} ......获取网站的第1,2,3页的链接。