Question

我正在尝试废弃位于此处的此页面：http://sagarin.com/sports/cfsend.htm

我需要的信息只是团队名称和适用于每个团队的评级。但是，由于页面具有非常基本的HTML标记，因此我无法弄清楚如何提取数据。整个表格（如果你真的可以称之为）似乎在一组font标签内，颜色为黑色（＃000000）。

看来我需要的每个团队名称都包含在<font>标签中，颜色＃000000应用于团队名称，而每个评级都在另一个{＃1}}标签内，颜色为＃9900ff。在我需要的每个相关的两个标签之间似乎还有4个无用的<font>标签。有关如何提取这两种特定字体标签的想法吗？

Answer 1

所以我已经玩了一段时间并且有一些基本的代码：

source = urllib.request.urlopen('https://www.usatoday.com/sports/ncaaf/sagarin/').read()
soup = bs.BeautifulSoup(source, "lxml")
page_source = soup.find("font", {"color": "#000000"})

temp_list = page_source.find_all("font", {"color": "#000000"})
for teams in temp_list[2:-3:2]:
    print(teams.text)

这让我得到了一个团队名单，但我仍然需要从中删除相当多的废话。这至少只是一个设计糟糕的网页的开始。

具有有限类元素的Beautifulsoup和报废页面

1 个答案: