应用错误收集

我试图从这个网站上搜集所有新闻。它们未显示在源代码中：http://www.uvm.dk/aktuelt

我尝试过使用Firefox＆＃39; LIVE Http Headers和Chrome的开发者工具，但仍然无法弄清楚幕后发生了什么。我确定它非常简单： - ）

我有这些信息，但我如何使用它们来获取所需的新闻？

http://www.uvm.dk/api/search

请求方法：POST

连接：保持活力的PageId = 8938bc1b-a673-4513-80d1-e1714ca93d7c＆安培;期限=安培;年％5B％5D = 2017＆安培; WorkAreaIds =安培; SubjectIds =安培; TemplateIds =安培; NewsListIds％5B％5D = Emner＆安培; TimeSearch％5BEvaluation％5D = ＆安培; FlagSearch％5BEvaluation％5D = ALLE＆安培; DepartmentNames =安培;字母=安培; RootItems =安培;语言= DA＆安培;每页= 10安培;页= 1

有人可以帮忙吗？

不是直接答案，而是一些提示。

您使用livehttpheaders的方法很好。在加载主页之前打开侧栏，清除所有内容。然后加载主页和一篇文章。由于图像，css和js，通常会有大量的http请求。但是你能找到一些有用的东西。通常第一个是主页，下面是文章主页。另一个有趣的是当你点击下一页时的那个。

我喜欢解密下载（HTTP）和抓取（HTML或JSON等）。我下载到一个带有第一个脚本的文件，然后使用第二个脚本进行报废。首先是因为我希望无需一次又一次地下载即可调整抓取。第二，因为我更喜欢使用bash + curl下载和python + lxml来废弃。如果我需要抓取信息继续下载，我的抓取脚本会在控制台上输出。

使用Python进行API搜索

1 个答案: