使用wget无法读取攻击性安全文件内容

时间:2016-12-10 18:19:59

标签: linux utf-8 character-encoding wget ansi

我尝试使用wget下载一些网址。除了这个链接Offensive-Security-ICQ和www.offensive-security.com上的任何其他链接外,我得到的文件没有问题。

我在Linux和Windows上尝试了许多试验和很多搜索,但是徒劳无功。

我使用此命令" wget https://www.offensive-security.com/pwbonline/icq.html"

结果文件显示此符号,并且是ANSI解码的enter image description here

我该如何解决这个问题?

1 个答案:

答案 0 :(得分:1)

由于某种原因,服务器不会返回html页面,而是返回它的压缩版本。您获得的文件被标识为gzip压缩数据:

$ file icq.html
icq.html: gzip compressed data, from Unix

所以你只需解压缩它就可以获得正确的html页面。

为什么服务器会这样做:不确定,但它可能是一些保留原样的默认设置,因此您可以更快地下载。

如何直接下载html内容:可能是通过发送一些常见的用户代理和标题,以便服务器认为它是一个常用的Web浏览器而不是下载工具。

这可以使用wget使用某些选项来完成,例如,这应该有效:

wget --header="Accept: text/html" --user-agent="Mozilla/5.0 (Macintosh; Intel Mac OS X 10.8; rv:21.0) Gecko/20100101 Firefox/21.0" https://www.offensive-security.com/pwbonline/icq.html