美丽的汤 - 用隐藏标签抓取网站

时间:2021-03-22 02:15:39

标签: python html web-scraping beautifulsoup

我正在尝试按比赛表抓取 NBA.com 比赛,因此我想获取示例图片中每个框的文本。 example 例如(https://www.nba.com/game/bkn-vs-cha-0022000032/play-by-play)。

检查 html 代码我认为每一行都在一个文章标签中,该标签包含 div 标签,其中包含两个带有我想要的信息的 p 标签,但是我编写了以下代码,我得到了 0 篇文章,只有 9 篇P 标签(应该更多)但即使是我得到它们的文本的标签也不是盒子而是别的东西。我得到了 9 个标签,所以我做错了什么,但我不确定它是什么。

这是获取标签的代码:

FlatList

谢谢!

1 个答案:

答案 0 :(得分:2)

使用 Selenium,因为它使用 Javascript 并将其传递给 Beautifulsoup。还有 pip install selenium 并获取 chromedriver.exe

from selenium import webdriver
driver = webdriver.Chrome()
driver.get("https://www.nba.com/game/bkn-vs-cha-0022000032/play-by-play")
soup = BeautifulSoup(driver.page_source, "html.parser")