如何用R刮掉无限加载页面

时间:2017-05-23 11:21:43

标签: javascript r web-scraping

我一直在为我的小型研究搜索一些新闻媒体页面。我在滚动时遇到了这个文章加载的page。我已经尝试在F12检查器中监视响应并找出(使用XHR文件)页面确实在一定数量的文章后单独加载。

我甚至可以在检查器中看到他们的网址,截图显示我的意思,

screenshot

但是,我不知道如何将此信息加载到R。我一直在使用Rvest,但不确定它在这里是否有用,也许是HTTR?

谢谢!

1 个答案:

答案 0 :(得分:0)

您可以在此端点浏览原始json:

http://kolumbus-api.lrytas.lt/query/?count=&tag_slugs=politika&type=Video,Articolo&order=pubfromdate-&ret_fields=props.type__AS__type,props.media[indexof(x.type=%27media%27%20for%20x%20in%20props.media)][%27hd-alternate-href%27]__AS__thumb,props.categories[0].name__AS__category,props.href__AS__href,props.title__AS__title,props.commentCount__AS__commentCount,props.media[indexof(x.type=%27media%27%20for%20x%20in%20props.media)].otheralternate.1280x720.href__AS__imgxl,props.media[indexof(x.type=%27media%27%20for%20x%20in%20props.media)].otheralternate.300x200.href__AS__imgm,props.media__AS__media_json&page=1

只需更改最后页面参数:page=1,直至结束。