我试图从这个网站上搜集所有新闻。它们未显示在源代码中:http://www.uvm.dk/aktuelt
我尝试过使用Firefox' LIVE Http Headers和Chrome的开发者工具,但仍然无法弄清楚幕后发生了什么。我确定它非常简单: - )
我有这些信息,但我如何使用它们来获取所需的新闻?
请求方法:POST
连接:保持活力 的PageId = 8938bc1b-a673-4513-80d1-e1714ca93d7c&安培;期限=安培;年%5B%5D = 2017&安培; WorkAreaIds =安培; SubjectIds =安培; TemplateIds =安培; NewsListIds%5B%5D = Emner&安培; TimeSearch%5BEvaluation%5D = &安培; FlagSearch%5BEvaluation%5D = ALLE&安培; DepartmentNames =安培;字母=安培; RootItems =安培;语言= DA&安培;每页= 10安培;页= 1
有人可以帮忙吗?
答案 0 :(得分:0)
不是直接答案,而是一些提示。
您使用livehttpheaders的方法很好。在加载主页之前打开侧栏,清除所有内容。然后加载主页和一篇文章。由于图像,css和js,通常会有大量的http请求。但是你能找到一些有用的东西。通常第一个是主页,下面是文章主页。另一个有趣的是当你点击下一页时的那个。
我喜欢解密下载(HTTP)和抓取(HTML或JSON等)。 我下载到一个带有第一个脚本的文件,然后使用第二个脚本进行报废。 首先是因为我希望无需一次又一次地下载即可调整抓取。第二,因为我更喜欢使用bash + curl下载和python + lxml来废弃。如果我需要抓取信息继续下载,我的抓取脚本会在控制台上输出。