Question

我想将特定页面转换为文本文件或使用wget（例如-m）下载其中的一些链接，但是大多数工具都无法解释源代码。

例如：

$ curl http://www.free-energy-info.co.uk/ | html2text
curl: (23) Failed writing body (0 != 2896)

但是使用-check会正确返回源代码：

$ html2text -check http://www.free-energy-info.co.uk/
<HTML>
<HEAD>
<TITLE>
...

然后我发现这个页面包含一些二进制数据和特殊字符，例如：

$ curl -s http://www.free-energy-info.co.uk/ | head | cat -v
M-^?M-~<^@h^@t^@m^@l^@>^@
^@
^@<^@h^@e^@a^@d^@>^@
^@
^@<^@T^@I^@T^@L^@E^@>^@F^@r^@e^@e^@-^@E^@n^@e^@r^@g^@y^@ ^@D^@e^@v^@i^@c^@e^@s^@,^@ ^@z^@e^@r^@o^@-^@p^@o^@i^@n^@t^@ ^@e^@n^@e^@r^@g^@y^@,^@ ^@a^@n^@d^@ ^@w^@a^@t^@e^@r^@ ^@a^@s^@ ^@H^@H^@O^@ ^@f^@u^@e^@l^@<^@/^@T^@I^@T^@L^@E^@>^@

这个网站有什么问题？这是一个Web服务器的错误，源代码是故意扰乱还是使用一些特殊格式（因为它看起来不压缩）？如何使这个页面可以理解为标准工具（例如wget）？

请注意，它在网络浏览器中运行良好。

这个html页面出了什么问题？

0 个答案: