我使用python和selenium编写了一个函数,在url上使用BeautifulSoup:
def get_soup(url):
d = webdriver.Chrome()
d.get(url)
result = d.page_source
soup = BeautifulSoup(result, 'html.parser')
return soup
我试图从这个网址中抓取当前的NHL排名:https://www.nhl.com/standings/league
我遇到了两个我不知道如何解决的问题:
1)如果你按照这个网址,它会带你进入"联盟"选项卡,但抓取并不区分此选项卡和其他选项卡。
2)国家冰球联盟中的三个元素"列(排名,徽标,名称)是三个独立的东西,但它们在一个列中。
我想将此数据提取到pandas数据帧中。
答案 0 :(得分:0)
我看了一下网站的源代码,找到了内部的NHL API。你可以抓住排名here。这个列表唯一没有的是徽标,但它还有其他你需要寻找的东西。请注意,由于这似乎不公开,因此URL可以随时更改。