Question

我正在从以下页面抓取：https://kenpom.com/index.php?y=2018

该页面显示了每个Divison 1大学篮球队的列表。每行是一个团队。我想将每个团队行分配给一个名为“团队”的变量。问题在于每40个团队之后有两个我不想包括的头行。这些行是唯一的，因为它们具有“ thead1”和“ thead2”的类。我要抓取的行具有None或“ bold-bottom”类。因此，从本质上讲，我需要遍历该表中的每个tr元素，并获取具有None或“ bold-bottom”类的任何元素。我在下面的尝试无效。当应为353时返回35的计数。

import requests
from bs4 import BeautifulSoup

url ='https://kenpom.com/index.php?y=2018'
r = requests.get(url).text
soup = BeautifulSoup(r, 'lxml')

table = soup.find('table',{'id':'ratings-table'}).tbody
teams = table.findAll('tr',attrs = {'class':(None or 'bold-bottom')})
print(len(teams))

从网站抓取Python。根据多个类属性选择TR元素

0 个答案: