我通过Windows上的Wget下载HTML页面及其文件:
wget -m -k -p -np --html-extension
HTML内容包含许多带有特殊字符的网址(例如:<a href="chp1_資料庫概論.doc" target="_blank">Chp1</a>
)。
有两个问题:
在HTML内容中,网址(包括特殊字符)会变成一些随机字词:
期望:
<a href="chp1_資料庫概論.doc" target="_blank">Chp1</a>
实际值:
<a href="http://acupun.site/lecture/database/chp1_%B8%EA%AE%C6%AEw%B7%A7%BD%D7.doc" target="_blank">Chp1</a>
文件名是随机词。
第二个问题可以通过添加--restrict-file-names=nocontrol
来解决。
如何解决第一个问题?这个Windows版本是个问题吗?
显然,在HTML中,它会将带有特殊字符的网址转换为某种内容......
答案 0 :(得分:0)
您的问题来自于Windows仍然会将您的UTF-8字符视为Latin-1字符,即使使用--restrict-file-names=nocontrol
命令行参数也是如此。
GNU的网站记录了这个错误here,但对于Windows用户来说,它仍然是一个问题。但是,您的命令可以在Linux环境中运行。