我正在尝试废弃位于此处的此页面:http://sagarin.com/sports/cfsend.htm
我需要的信息只是团队名称和适用于每个团队的评级。但是,由于页面具有非常基本的HTML标记,因此我无法弄清楚如何提取数据。整个表格(如果你真的可以称之为)似乎在一组font
标签内,颜色为黑色(#000000)。
看来我需要的每个团队名称都包含在<font>
标签中,颜色#000000应用于团队名称,而每个评级都在另一个{#1}}标签内,颜色为#9900ff。在我需要的每个相关的两个标签之间似乎还有4个无用的<font>
标签。有关如何提取这两种特定字体标签的想法吗?
答案 0 :(得分:0)
所以我已经玩了一段时间并且有一些基本的代码:
source = urllib.request.urlopen('https://www.usatoday.com/sports/ncaaf/sagarin/').read()
soup = bs.BeautifulSoup(source, "lxml")
page_source = soup.find("font", {"color": "#000000"})
temp_list = page_source.find_all("font", {"color": "#000000"})
for teams in temp_list[2:-3:2]:
print(teams.text)
这让我得到了一个团队名单,但我仍然需要从中删除相当多的废话。这至少只是一个设计糟糕的网页的开始。