应用错误收集

时间：2018-01-23 01:54:07

标签： javascript python json web-scraping beautifulsoup

我正在尝试使用python和BeautifulSoup的网页抓取从博客中迁移一些评论。我正在寻找的内容不在HTML本身，似乎是在脚本标签中生成的（我找不到）。我已经看到了一些关于此的答案，但大多数都是针对某个问题的，我似乎无法弄清楚如何将它应用到我的网站。我只是试图从这样的页面中删除评论：

我也尝试过Selenium，但我目前正在使用基于Cloud9的IDE，它似乎不支持网络驱动程序。

如果我对任何一个术语进行了拙劣，我很抱歉，我对编程很陌生。如果有人有任何提示，那将是有帮助的。谢谢！

答案 0 :(得分：1)

您有很多方法可以废弃此类内容。一个是找出如何在本网站上加载评论。在铬开发人员工具中快速查找时，所提到页面的评论通过this api call加载。

这可能不适合您，因为您可能无法为每个不同的页面生成此网址。

另一种更可靠的方法是使用GUIless浏览器呈现此类js内容，为了便于实现，我建议使用scrapy with splash .Splash是一个python框架，它为您的请求呈现大部分内容。