从无限的scolling网页获取所有文章链接?

时间:2015-12-18 20:12:00

标签: python web-scraping rss beautifulsoup

我使用python进行编程,并使用漂亮的汤来解析来自The History Channel's News Feed的文章。截至目前,我可以弄清楚如何从单篇文章中获取文章文本,但我无法弄清楚如何从无限的feed中获取链接。我尝试插入RSS源并使用feedparser,但这只提供了20篇最新文章。

有没有办法获得更多我失踪的东西? Pythonic方法首选!

1 个答案:

答案 0 :(得分:1)

在引擎盖下,通常通过从分页结果中注入记录来处理无限滚动,这些记录可以直接从URL访问。

使用Postman Interceptor,您可以发现分页结果的网址架构。

此页面的第二页结果是:http://www.history.com/api/html/news?sidebars=aetn_content&includejs=aetn_content&page=2

循环翻页并刮掉!