用python

时间:2016-11-01 22:44:57

标签: python selenium beautifulsoup

我使用python和selenium编写了一个函数,在url上使用BeautifulSoup:

def get_soup(url):
    d = webdriver.Chrome()
    d.get(url)
    result = d.page_source
    soup = BeautifulSoup(result, 'html.parser')
    return soup

我试图从这个网址中抓取当前的NHL排名:https://www.nhl.com/standings/league

我遇到了两个我不知道如何解决的问题:

1)如果你按照这个网址,它会带你进入"联盟"选项卡,但抓取并不区分此选项卡和其他选项卡。

2)国家冰球联盟中的三个元素"列(排名,徽标,名称)是三个独立的东西,但它们在一个列中。

我想将此数据提取到pandas数据帧中。

1 个答案:

答案 0 :(得分:0)

我看了一下网站的源代码,找到了内部的NHL API。你可以抓住排名here。这个列表唯一没有的是徽标,但它还有其他你需要寻找的东西。请注意,由于这似乎不公开,因此URL可以随时更改。