Python脚本从HTML中提取

时间:2016-01-07 21:24:26

标签: python html beautifulsoup python-requests extract

我正在编写一个扫描一组链接的脚本。在每个链接中,脚本在表中搜索一行。一旦找到,它会增加变量total_rank,这是在每个网页上找到的总和。等级等于行号。

代码如下所示,输出为零:

import requests
from bs4 import BeautifulSoup
import time

url_to_scrape = 'https://www.teamrankings.com/ncb/stats/'
r = requests.get(url_to_scrape)
soup = BeautifulSoup(r.text, "html.parser")

stat_links = []

for a in soup.select(".chooser-list ul"):
    list_entry = a.findAll('li')
    relative_link = list_entry[0].find('a')['href']
    link = "https://www.teamrankings.com" + relative_link
    stat_links.append(link)

total_rank = 0

for link in stat_links:
    r = requests.get(link)
    soup = BeautifulSoup(r.text, "html.parser")

    team_rows = soup.select(".tr-table.datatable.scrollable.dataTable.no-footer table")

    for row in team_rows:
        if row.findAll('td')[1].text.strip() == 'Oklahoma':
            rank = row.findAll('td')[0].text.strip()
            total_rank = total_rank + rank

    # time.sleep(1)

print total_rank
在调用select()之后,

调试team_rows为空,我还尝试了不同的标签。例如,我已经尝试soup.select(".scroll-wrapper div")我已经尝试soup.select("#DataTables_Table_0_wrapper div")所有人都没有返回任何内容

2 个答案:

答案 0 :(得分:3)

选择器

".tr-table datatable scrollable dataTable no-footer tr"

<tr>元素下的<no-footer>元素下的任何位置选择<dataTable>个元素....等等。

我认为真正的“数据表可滚动dataTable no-footer”是.tr-table上的类吗?因此,在这种情况下,他们应该加入第一个有句号的班级。所以我相信最终正确的选择器是:

".tr-table.datatable.scrollable.dataTable.no-footer tr"

更新:新选择器如下所示:

".tr-table.datatable.scrollable.dataTable.no-footer table"

这里的问题是第一部分.tr-table.datatable ...指的是表本身。假设您正在尝试获取此表的行:

<table class="tr-table datatable scrollable dataTable no-footer" id="DataTables_Table_0" role="grid">

正确的选择器仍然是我最初建议的选择器。

答案 1 :(得分:0)

虽然建议的选择器对我不起作用,但@ audiodude的答案是正确的。

您无需检查table元素的每个类。这是工作选择器:

team_rows = soup.select("table.datatable tr")

此外,如果您需要在表格中找到Oklahoma - 您不必迭代表格中的每一行和单元格。只需直接搜索特定的单元格,然后获取包含等级的前一个单元格:

rank = soup.find("td", {"data-sort": "Oklahoma"}).find_previous_sibling("td").get_text()
total_rank += int(rank)  # it is important to convert the row number to int

另请注意,您提取的统计信息链接数量超出预期 - 看起来不应遵循“播放机统计信息”链接,因为您专注于团队统计信息。以下是仅获取Team Stats链接的一种方法:

links_list = soup.find("h2", text="Team Stats").find_next_sibling("ul")
stat_links = ["https://www.teamrankings.com" + a["href"] 
              for a in links_list.select("ul.expand-content li a[href]")]