使用JS Filters输出BeautifulSoup4

时间:2018-05-09 09:10:10

标签: python web-scraping beautifulsoup

新手在这里。我正在尝试使用BeautifulSoup4从网站上删除一些体育统计数据。下面的脚本确实输出了一个表,但它实际上并不是浏览器中出现的特定数据(浏览器中显示的数据是我所追求的数据 - 一个季节的目标核心数据,而不是所有时间记录)。

#import libraries
from urllib.request import urlopen
from bs4 import BeautifulSoup
import requests

#specify the url
stat_page = 'https://www.premierleague.com/stats/top/players/goals?se=79'

# query the website and return the html to the variable ‘page’
page = urlopen(stat_page)

#parse the html using beautiful soup and store in variable `soup`
soup = BeautifulSoup(page, 'html.parser')

# Take out the <div> of name and get its value
stats = soup.find('tbody', attrs={'class': 'statsTableContainer'})
name = stats.text.strip()
print(name)

看来幕后有一些数据过滤,但我不知道如何使用BeautifulSoup4过滤输出。看起来有一些Javascript过滤发生在HTML之上。

我试图确定这个特定的过滤器是什么,看来过滤是在这里完成的。

<div class="current" data-dropdown-current="FOOTBALL_COMPSEASON" role="button" tabindex="0" aria-expanded="false" aria-labelledby="dd-FOOTBALL_COMPSEASON" data-listen-keypress="true" data-listen-click="true">2017/18</div>

我已阅读以下链接,但我不完全确定如何将其应用于我的答案(再次,这里是初学者)。

Having problems understanding BeautifulSoup filtering

我已尝试安装,导入和应用不同的解析器,但我总是得到相同的错误(找不到树生成器)。关于如何从似乎使用JS过滤器的网站上提取数据的任何建议?

感谢。

0 个答案:

没有答案