Question

我使用python和selenium编写了一个函数，在url上使用BeautifulSoup：

def get_soup(url):
    d = webdriver.Chrome()
    d.get(url)
    result = d.page_source
    soup = BeautifulSoup(result, 'html.parser')
    return soup

我试图从这个网址中抓取当前的NHL排名：https://www.nhl.com/standings/league

我遇到了两个我不知道如何解决的问题：

1）如果你按照这个网址，它会带你进入＆＃34;联盟＆＃34;选项卡，但抓取并不区分此选项卡和其他选项卡。

2）国家冰球联盟中的三个元素＆＃34;列（排名，徽标，名称）是三个独立的东西，但它们在一个列中。

我想将此数据提取到pandas数据帧中。

Answer 1

我看了一下网站的源代码，找到了内部的NHL API。你可以抓住排名here。这个列表唯一没有的是徽标，但它还有其他你需要寻找的东西。请注意，由于这似乎不公开，因此URL可以随时更改。

用python

1 个答案: