Question

我正在尝试按比赛表抓取 NBA.com 比赛，因此我想获取示例图片中每个框的文本。例如（https://www.nba.com/game/bkn-vs-cha-0022000032/play-by-play）。

检查 html 代码我认为每一行都在一个文章标签中，该标签包含 div 标签，其中包含两个带有我想要的信息的 p 标签，但是我编写了以下代码，我得到了 0 篇文章，只有 9 篇P 标签（应该更多）但即使是我得到它们的文本的标签也不是盒子而是别的东西。我得到了 9 个标签，所以我做错了什么，但我不确定它是什么。

这是获取标签的代码：

FlatList

谢谢！

Answer 1

使用 Selenium，因为它使用 Javascript 并将其传递给 Beautifulsoup。还有 pip install selenium 并获取 chromedriver.exe

from selenium import webdriver
driver = webdriver.Chrome()
driver.get("https://www.nba.com/game/bkn-vs-cha-0022000032/play-by-play")
soup = BeautifulSoup(driver.page_source, "html.parser")

美丽的汤 - 用隐藏标签抓取网站

1 个答案: