我正在尝试使用python和BeautifulSoup的网页抓取从博客中迁移一些评论。我正在寻找的内容不在HTML本身,似乎是在脚本标签中生成的(我找不到)。我已经看到了一些关于此的答案,但大多数都是针对某个问题的,我似乎无法弄清楚如何将它应用到我的网站。我只是试图从这样的页面中删除评论:
我也尝试过Selenium,但我目前正在使用基于Cloud9的IDE,它似乎不支持网络驱动程序。
如果我对任何一个术语进行了拙劣,我很抱歉,我对编程很陌生。如果有人有任何提示,那将是有帮助的。谢谢!
答案 0 :(得分:1)
您有很多方法可以废弃此类内容。一个是找出如何在本网站上加载评论。在铬开发人员工具中快速查找时,所提到页面的评论通过this api call加载。
这可能不适合您,因为您可能无法为每个不同的页面生成此网址。
另一种更可靠的方法是使用GUIless浏览器呈现此类js内容,为了便于实现,我建议使用scrapy with splash
.Splash是一个python框架,它为您的请求呈现大部分内容。