BeautifulSoup循环通过网址

时间:2015-01-03 07:53:53

标签: python html web-scraping beautifulsoup html-parsing

我正在尝试收集一些国际象棋游戏,并且在这里得到了一些帮助。在主要功能看起来像:

import requests
import urllib2
from bs4 import BeautifulSoup

r = requests.get(userurl)
soup = BeautifulSoup(r.content)
gameids= []
for link in soup.select('a[href^=/livechess/game?id=]'):
    gameid = link['href'].split("?id=")[1]
    gameids.append(int(gameid))
    return gameids

基本上发生的事情是,我转到特定用户的网址,例如http://www.chess.com/home/game_archive?sortby=&show=live&member=Hikaru,grab html并抓取gameids。这适用于一页。 然而,一些用户玩过很多游戏,因为每页只显示50个游戏,所以他们的游戏列在多个页面上 http://www.chess.com/home/game_archive?sortby=&show=live&member=Hikaru&page=2(或3/4/5等) 这就是我被困住的地方。我如何遍历页面并获取ID?

1 个答案:

答案 0 :(得分:4)

按照分页进行无限循环,然后按“下一步”链接,直至找不到。

换句话说,来自:

enter image description here

跟随“下一步”链接,直到:

enter image description here

工作代码:

from urlparse import urljoin

import requests
from bs4 import BeautifulSoup

base_url = 'http://www.chess.com/'
game_ids = []

next_page = 'http://www.chess.com/home/game_archive?sortby=&show=live&member=Hikaru'
while True:
    soup = BeautifulSoup(requests.get(next_page).content)

    # collect the game ids
    for link in soup.select('a[href^=/livechess/game?id=]'):
        gameid = link['href'].split("?id=")[1]
        game_ids.append(int(gameid))

    try:
        next_page = urljoin(base_url, soup.select('ul.pagination li.next-on a')[0].get('href'))
    except IndexError:
        break  # exiting the loop if "Next" link not found

print game_ids

对于您提供的网址(Hikaru GM),它会从所有网页打印出224个游戏ID的列表。