我正在制作一个bash脚本来检索一些html内容,命令行是:
wget http://some_url.com -q -O -output.txt -o /dev/null
但是当页面中有图像时,仍然会显示"显示"具有不可打印字符的那些。
有没有办法告诉wget不显示那些不可打印的字符?
干杯
p.s:事实上,我不能在" output.txt"上做任何grep。因为它被认为是二进制文件(因为不可打印的caracters)
您可以尝试使用该网址:https://www.offensive-security.com/pwbonline/icq.html
答案 0 :(得分:0)
通常HTML文档不会包含二进制数据。我无法重现这个具体问题。
如果要强制grep
搜索通常会被跳过的文件,因为grep
假设它们是二进制的,请使用--binary-files=text
:
wget -O- http://server.com/url | grep --binary-files=text 'foo.*bar'