Question

我通过Windows上的Wget下载HTML页面及其文件：

wget -m -k -p -np --html-extension

HTML内容包含许多带有特殊字符的网址（例如：<a href="chp1_資料庫概論.doc" target="_blank">Chp1</a>）。

有两个问题：

在HTML内容中，网址（包括特殊字符）会变成一些随机字词：

期望：

<a href="chp1_資料庫概論.doc" target="_blank">Chp1</a>

实际值：

<a href="http://acupun.site/lecture/database/chp1_%B8%EA%AE%C6%AEw%B7%A7%BD%D7.doc" target="_blank">Chp1</a>

Answer 1

您的问题来自于Windows仍然会将您的UTF-8字符视为Latin-1字符，即使使用--restrict-file-names=nocontrol命令行参数也是如此。

GNU的网站记录了这个错误here，但对于Windows用户来说，它仍然是一个问题。但是，您的命令可以在Linux环境中运行。