新手在这里。我正在尝试使用BeautifulSoup4从网站上删除一些体育统计数据。下面的脚本确实输出了一个表,但它实际上并不是浏览器中出现的特定数据(浏览器中显示的数据是我所追求的数据 - 一个季节的目标核心数据,而不是所有时间记录)。
#import libraries
from urllib.request import urlopen
from bs4 import BeautifulSoup
import requests
#specify the url
stat_page = 'https://www.premierleague.com/stats/top/players/goals?se=79'
# query the website and return the html to the variable ‘page’
page = urlopen(stat_page)
#parse the html using beautiful soup and store in variable `soup`
soup = BeautifulSoup(page, 'html.parser')
# Take out the <div> of name and get its value
stats = soup.find('tbody', attrs={'class': 'statsTableContainer'})
name = stats.text.strip()
print(name)
看来幕后有一些数据过滤,但我不知道如何使用BeautifulSoup4过滤输出。看起来有一些Javascript过滤发生在HTML之上。
我试图确定这个特定的过滤器是什么,看来过滤是在这里完成的。
<div class="current" data-dropdown-current="FOOTBALL_COMPSEASON" role="button" tabindex="0" aria-expanded="false" aria-labelledby="dd-FOOTBALL_COMPSEASON" data-listen-keypress="true" data-listen-click="true">2017/18</div>
我已阅读以下链接,但我不完全确定如何将其应用于我的答案(再次,这里是初学者)。
Having problems understanding BeautifulSoup filtering
我已尝试安装,导入和应用不同的解析器,但我总是得到相同的错误(找不到树生成器)。关于如何从似乎使用JS过滤器的网站上提取数据的任何建议?
感谢。