如何使用BeautifulSoup刮取使用javascript生成的数据?

时间:2018-01-23 01:54:07

标签: javascript python json web-scraping beautifulsoup

我正在尝试使用python和BeautifulSoup的网页抓取从博客中迁移一些评论。我正在寻找的内容不在HTML本身,似乎是在脚本标签中生成的(我找不到)。我已经看到了一些关于此的答案,但大多数都是针对某个问题的,我似乎无法弄清楚如何将它应用到我的网站。我只是试图从这样的页面中删除评论:

http://www.themasterpiececards.com/famous-paintings-reviewed/bid/92327/famous-paintings-duccio-s-maesta

我也尝试过Selenium,但我目前正在使用基于Cloud9的IDE,它似乎不支持网络驱动程序。

如果我对任何一个术语进行了拙劣,我很抱歉,我对编程很陌生。如果有人有任何提示,那将是有帮助的。谢谢!

1 个答案:

答案 0 :(得分:1)

您有很多方法可以废弃此类内容。一个是找出如何在本网站上加载评论。在铬开发人员工具中快速查找时,所提到页面的评论通过this api call加载。

这可能不适合您,因为您可能无法为每个不同的页面生成此网址。

另一种更可靠的方法是使用GUIless浏览器呈现此类js内容,为了便于实现,我建议使用scrapy with splash .Splash是一个python框架,它为您的请求呈现大部分内容。