具有有限类元素的Beautifulsoup和报废页面

时间:2017-05-21 17:27:43

标签: python beautifulsoup

我正在尝试废弃位于此处的此页面:http://sagarin.com/sports/cfsend.htm

我需要的信息只是团队名称和适用于每个团队的评级。但是,由于页面具有非常基本的HTML标记,因此我无法弄清楚如何提取数据。整个表格(如果你真的可以称之为)似乎在一组font标签内,颜色为黑色(#000000)。

看来我需要的每个团队名称都包含在<font>标签中,颜色#000000应用于团队名称,而每个评级都在另一个{#1}}标签内,颜色为#9900ff。在我需要的每个相关的两个标签之间似乎还有4个无用的<font>标签。有关如何提取这两种特定字体标签的想法吗?

1 个答案:

答案 0 :(得分:0)

所以我已经玩了一段时间并且有一些基本的代码:

source = urllib.request.urlopen('https://www.usatoday.com/sports/ncaaf/sagarin/').read()
soup = bs.BeautifulSoup(source, "lxml")
page_source = soup.find("font", {"color": "#000000"})

temp_list = page_source.find_all("font", {"color": "#000000"})
for teams in temp_list[2:-3:2]:
    print(teams.text)

这让我得到了一个团队名单,但我仍然需要从中删除相当多的废话。这至少只是一个设计糟糕的网页的开始。