我正在从以下页面抓取:https://kenpom.com/index.php?y=2018
该页面显示了每个Divison 1大学篮球队的列表。每行是一个团队。我想将每个团队行分配给一个名为“团队”的变量。问题在于每40个团队之后有两个我不想包括的头行。这些行是唯一的,因为它们具有“ thead1”和“ thead2”的类。我要抓取的行具有None或“ bold-bottom”类。因此,从本质上讲,我需要遍历该表中的每个tr元素,并获取具有None或“ bold-bottom”类的任何元素。我在下面的尝试无效。当应为353时返回35的计数。
import requests
from bs4 import BeautifulSoup
url ='https://kenpom.com/index.php?y=2018'
r = requests.get(url).text
soup = BeautifulSoup(r, 'lxml')
table = soup.find('table',{'id':'ratings-table'}).tbody
teams = table.findAll('tr',attrs = {'class':(None or 'bold-bottom')})
print(len(teams))