HTML并不反映Beautiful Soup浏览器中的网页内容

时间:2017-01-05 22:08:31

标签: python html beautifulsoup

我正在尝试使用Beautiful Soup从网站上抓取内容。在进行一些测试时,我得到以下输出(这只是结尾处的最后一位):

<!-- 6. Load the app --> 
 <my-app>
    Loading...
 </my-app>

</body>

</html>

“加载”部分就是我想要的。为什么html没有为此加载?如果我在Google中查看来源,也会发生同样的事情。如果我看不到代码,我该怎么刮。

相关网页是:

https://searchusan.ama-assn.org/finder/usan/search/ * /相关/ 1

谢谢。

1 个答案:

答案 0 :(得分:2)

Beautiful Soup加载页面首次渲染时看到的页面。不幸的是,您尝试抓取的页面使用javascript,它会在初始页面加载后呈现您想要的信息。 Javascript总是为Beautiful Soup创造问题,而且我使用javascript工作的唯一纯美的汤解决方案是可怕的毛茸茸,缓慢,崩溃/悬挂。

我建议你使用像Selenium和Beautiful Soup这样的工具来加载整个页面。

以下是一个示例:Python Scraping JavaScript using Selenium and Beautiful Soup