我使用python进行编程,并使用漂亮的汤来解析来自The History Channel's News Feed的文章。截至目前,我可以弄清楚如何从单篇文章中获取文章文本,但我无法弄清楚如何从无限的feed中获取链接。我尝试插入RSS源并使用feedparser,但这只提供了20篇最新文章。
有没有办法获得更多我失踪的东西? Pythonic方法首选!
答案 0 :(得分:1)
在引擎盖下,通常通过从分页结果中注入记录来处理无限滚动,这些记录可以直接从URL访问。
使用Postman Interceptor,您可以发现分页结果的网址架构。
此页面的第二页结果是:http://www.history.com/api/html/news?sidebars=aetn_content&includejs=aetn_content&page=2
循环翻页并刮掉!