应用错误收集

从无限的scolling网页获取所有文章链接？

时间：2015-12-18 20:12:00

标签： python web-scraping rss beautifulsoup

我使用python进行编程，并使用漂亮的汤来解析来自The History Channel's News Feed的文章。截至目前，我可以弄清楚如何从单篇文章中获取文章文本，但我无法弄清楚如何从无限的feed中获取链接。我尝试插入RSS源并使用feedparser，但这只提供了20篇最新文章。

有没有办法获得更多我失踪的东西？ Pythonic方法首选！

1 个答案:

答案 0 :(得分：1)

在引擎盖下，通常通过从分页结果中注入记录来处理无限滚动，这些记录可以直接从URL访问。

使用Postman Interceptor，您可以发现分页结果的网址架构。

此页面的第二页结果是：http://www.history.com/api/html/news?sidebars=aetn_content&includejs=aetn_content&page=2

循环翻页并刮掉！