如何删除网站的多个页面,eacg页面的href类型为" javascript:get_next_page()"?

时间:2016-08-08 21:27:44

标签: javascript python

我正在尝试从educationworld.in网站上删除数据,以获取所有学校的名称,地址和评级表。

我利用Python和Beautiful Soup4来提取我的数据。我已达到提取数据并将其导入CSV的目的,但我现在遇到从网站的多个页面抓取数据的问题。我想提取所有学校但我的剧本仅限于一页。我想将它循环播放,它将捕获网站中找到的所有页面中的所有数据。

下面是我的剧本。我需要有关创建代码的帮助,这些代码将从网站捕获所有数据,而不仅仅是一个站点而是多个站点。

    import requests

    from BeautifulSoup import BeautifulSoup

    for i in range(0,21): 

        if i%5==0:

            url='http://www.educationworld.in/institute%2Fsearch%2Fdata%2Fsrch%5Bid_city%5D%3D388%26srch%5Bhmsrchcity%5D%3DFaridabad+%28Haryana%29%26srch%5Bcourse%5D%3D39%26srch%5Bhomepg%5D%3D1/pgn/1','{}','5','institute_searchInstitutes'.format(i)

            response = requests.get(url)
            html = response.content

            soup = BeautifulSoup(html)
            print soup.title

            listing = soup.findAll('div', attrs = {'class': 'srch_box_bg mrgn_btm5 pdng3 p_bgcl'})
            for rec in listing:
                name =  rec.find('div', attrs = {'class': ' fltlft'}).a.text
                ratings = rec.find('div', attrs = {'class': 'fltlft mrgn_rht5'}).text
                address = rec.find('div', attrs = {'class': 'lnhit_20 wrd_wrp'}).text
                print name, "\t", ratings, "\t", address 
                print "\n"'

我想要0,5,10代替{} ......获取网站的第1,2,3页的链接。

0 个答案:

没有答案