使用 BeatifulSoup 无法在网站中抓取表格

时间:2021-03-25 15:18:24

标签: python web-scraping beautifulsoup

我想从这个 Website 中抓取表格数据。但是如果我转到页面源代码,它不会向我显示完整页面源的表格部分,而是在检查中显示表格标记。谁能帮我从这个网站上抓取数据。

1 个答案:

答案 0 :(得分:2)

该表没有显示在源代码中,因为它是由 Angular 渲染的。 BeautifulSoup 只能看到纯 HTML 源代码。 你可以

  • 看一看this question,这里推荐selenium 用于此类页面(因为它执行javascript,使您在devtools 中看到的内容通过inspect 可刮取) 或
  • 使用开发工具中的“网络”选项卡检查在 Javascript 中发出的请求。在那里,您切换到“XHR”,它显示 JS 的请求,重新加载页面并查看结果。正如您在我的屏幕截图中看到的,NSE 请求获取了您想要的数据。 复制请求 URL 并直接请求它以获取仅包含您的答案的 json 结果。这在这种情况下应该可行,但对于某些 API,您必须仔细查看标题选项卡,因为可能需要一些 cookie 或安全令牌才能获得有效答案。

The NSE request is looking promising