刮取AMP版本的网页是否更容易?

时间:2019-04-08 00:47:08

标签: web-scraping beautifulsoup web-crawler amp-html web-mining

我正在研究一种聚合报纸文章的网络抓取工具。我知道AMP协议要求精简版Javascript,而且我也知道Javascript(部分)使网站管理员可以检测/防止抓取。因此,从逻辑上讲,我认为刮取AMP网站会更容易。但是,另一方面,如果这是真的,我认为StackOverflow会在它上面,但是我还没有找到一个可以证实我的推论的线程。我是正确的还是我忽略了什么?

1 个答案:

答案 0 :(得分:0)

我要说的是,由于实际上没有自定义JS代码,因此AMP页面绝对更容易抓取。许多站点使用JS或AJAX插入内容。 AMP限制了您可以使用的库数量,因此与常规站点相比,它们的数量更少。

此外,如果要抓取用JavaScript编写的内容,则可以使用Selenium。如果不是这样,PHP是使用(IMHO)或Python中的BeautifulSoup的方法。

刮刮乐!