我正在尝试使用Beautiful Soup从网站上抓取内容。在进行一些测试时,我得到以下输出(这只是结尾处的最后一位):
<!-- 6. Load the app -->
<my-app>
Loading...
</my-app>
</body>
</html>
“加载”部分就是我想要的。为什么html没有为此加载?如果我在Google中查看来源,也会发生同样的事情。如果我看不到代码,我该怎么刮。
相关网页是:
https://searchusan.ama-assn.org/finder/usan/search/ * /相关/ 1
谢谢。
答案 0 :(得分:2)
Beautiful Soup加载页面首次渲染时看到的页面。不幸的是,您尝试抓取的页面使用javascript,它会在初始页面加载后呈现您想要的信息。 Javascript总是为Beautiful Soup创造问题,而且我使用javascript工作的唯一纯美的汤解决方案是可怕的毛茸茸,缓慢,崩溃/悬挂。
我建议你使用像Selenium和Beautiful Soup这样的工具来加载整个页面。
以下是一个示例:Python Scraping JavaScript using Selenium and Beautiful Soup