赛车网站抓取

时间:2016-03-04 21:29:00

标签: python web-scraping beautifulsoup

我是Python和网络抓取的新手。我想抓住赛车站点来获得每场比赛和每场比赛的统计数据。

我正在尝试获取比赛的所有部分链接,以便稍后用于提取该比赛的统计数据。 (http://betting.racingpost.com/horses/cards/

实施例: 32Red.com Fillies´ Handicap 1m1y

我正在使用此代码,但我获得了页面中的所有链接。我需要找到提取数据,但我不知道如何做到这一点。我尝试了几种方法,但没有得到预期的结果。

from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen("http://betting.racingpost.com/horses/cards/")
bsObj = BeautifulSoup(html.read())
namelist=bsObj.select("a")
for i in namelist:
    print(i['href'])

1 个答案:

答案 0 :(得分:0)

如果我理解你的问题,你需要表格第三栏中的链接,对吧?

对此有用的是将select和loop更改为

rows = bsObj.select("div#race_result tr")
for row in rows:
    print(row.select("td:nth-of-type(4)"))

不幸的是,列上没有类,但是对于你拥有的结构,它应该足够安全。