我需要自动从网页下载文档(使用Python脚本)。在HTML页面中,链接如下所示:
href="https://foo.bar/view.php?id=123456"
当我在Web浏览器中单击此类链接时,Web浏览器会打开具有正确名称的文档 - 例如:document_1.pdf
。
但是,当我使用wget下载相同的文档时:
$ wget https://foo.bar/view.php?id=123456
我确实得到了正确的文档,但名称不同:view.php@id=123456
现在,HTML页面中没有显示文档的真实姓名(本例中为document_1.pdf
)。我怎么能得到它?
如果Web浏览器可以获取文档的名称,那么脚本也必须这样做,但是如何?
答案 0 :(得分:1)
已在评论中解决:
The file download server response contains the file name in a header. – James