我正在开发一个Web scraper,我需要从页面下载.pdf
文件。我可以从html标记中获取文件名,但无法找到下载文件的完整URL(或请求正文)。
我试图使用chrome和firefox网络流量工具以及wireshark来嗅探流量,但没有成功。我可以看到它向页面本身提供与完全相同的URL的帖子请求,因此我无法理解为什么会发生这种情况。我的猜测是文件名是在POST请求体内发送的,但我也无法在这些工具中找到这些信息。如果我能在正文中看到变量名,我可以创建请求的副本然后获取文件。
我如何获取该信息?
编辑:对于那些想要做类似事情的人,请看一下这个网站:http://curl.trillworks.com/
它将cURL转换为python请求代码。非常有用