ESPN.com Python网页抓取问题

时间:2017-11-23 03:19:11

标签: python selenium web-scraping beautifulsoup

我正在尝试为所有大学橄榄球队的名单提取数据,因为我想根据球队名单的组成对球队表现进行一些分析。

我的脚本正在第一页上工作,它遍历每个团队并可以打开每个团队的名单链接,但是我在团队名单页面上运行的美丽汤命令让团队继续抛出索引错误。当我查看HTML时,似乎我正在编写的命令应该可以工作,当我从Beautiful Soup打印页面源时,我看不到我在Chrome中的Developer Tools中看到的内容。这是JS的一些实例用于提供内容吗?如果是这样,我认为Selenium绕过了这个?

我的代码......

import requests
import csv
from bs4 import BeautifulSoup
from selenium import webdriver

teams_driver = webdriver.Firefox()
teams_driver.get("http://www.espn.com/college-football/teams")
teams_html = teams_driver.page_source
teams_soup = BeautifulSoup(teams_html, "html5lib")

i = 0

for link_html in teams_soup.find_all('a'):
    if link_html.text == 'Roster':
        roster_link = 'https://www.espn.com' + link_html['href']

        roster_driver = webdriver.Firefox()
        roster_driver.get(roster_link)
        roster_html = teams_driver.page_source
        roster_soup = BeautifulSoup(roster_html, "html5lib")

        team_name_html = roster_soup.find_all('a', class_='sub-brand-title')[0]
        team_name = team_name_html.find_all('b')[0].text

        for player_html in roster_soup.find_all('tr', class_='oddrow'):
            player_name = player_html.find_all('a')[0].text
            player_pos = player_html.find_all('td')[2].text
            player_height = player_html.find_all('td')[3].text
            player_weight = player_html.find_all('td')[4].text
            player_year = player_html.find_all('td')[5].text
            player_hometown = player_html.find_all('td')[6].text

            print(team_name)
            print('\t', player_name)

        roster_driver.close()

teams_driver.close()

1 个答案:

答案 0 :(得分:1)

在for循环中,您使用的是第一页的html(roster_html = teams_driver.page_source),因此当您尝试选择team_name_html的第一项时会出现索引错误,因为{{1}返回一个空列表。

此外,您不需要打开find_all的所有实例,您可以在拥有html时关闭驱动程序。

Firefox

但您不必使用teams_driver = webdriver.Firefox() teams_driver.get("http://www.espn.com/college-football/teams") teams_html = teams_driver.page_source teams_driver.quit() 执行此任务,您可以使用seleniumrequests获取所有数据。

bs4