Question

我正在尝试从educationworld.in网站上删除数据，以获取所有学校的名称，地址和评级表。

我利用Python和Beautiful Soup4来提取我的数据。我已达到提取数据并将其导入CSV的目的，但我现在遇到从网站的多个页面抓取数据的问题。我想提取所有学校但我的剧本仅限于一页。我想将它循环播放，它将捕获网站中找到的所有页面中的所有数据。

下面是我的剧本。我需要有关创建代码的帮助，这些代码将从网站捕获所有数据，而不仅仅是一个站点而是多个站点。

    import requests

    from BeautifulSoup import BeautifulSoup

    for i in range(0,21): 

        if i%5==0:

            url='http://www.educationworld.in/institute%2Fsearch%2Fdata%2Fsrch%5Bid_city%5D%3D388%26srch%5Bhmsrchcity%5D%3DFaridabad+%28Haryana%29%26srch%5Bcourse%5D%3D39%26srch%5Bhomepg%5D%3D1/pgn/1','{}','5','institute_searchInstitutes'.format(i)

            response = requests.get(url)
            html = response.content

            soup = BeautifulSoup(html)
            print soup.title

            listing = soup.findAll('div', attrs = {'class': 'srch_box_bg mrgn_btm5 pdng3 p_bgcl'})
            for rec in listing:
                name =  rec.find('div', attrs = {'class': ' fltlft'}).a.text
                ratings = rec.find('div', attrs = {'class': 'fltlft mrgn_rht5'}).text
                address = rec.find('div', attrs = {'class': 'lnhit_20 wrd_wrp'}).text
                print name, "\t", ratings, "\t", address 
                print "\n"'

我想要0,5,10代替{} ......获取网站的第1,2,3页的链接。

如何删除网站的多个页面，eacg页面的href类型为＆＃34; javascript：get_next_page（）＆＃34;？

0 个答案: