Wget在网址

时间:2016-11-27 13:41:24

标签: encoding wget

我通过Windows上的Wget下载HTML页面及其文件:

wget -m -k -p -np --html-extension

HTML内容包含许多带有特殊字符的网址(例如:<a href="chp1_資料庫概論.doc" target="_blank">Chp1</a>)。

有两个问题:

  1. 在HTML内容中,网址(包括特殊字符)会变成一些随机字词:

    期望:

    <a href="chp1_資料庫概論.doc" target="_blank">Chp1</a>
    

    实际值:

    <a href="http://acupun.site/lecture/database/chp1_%B8%EA%AE%C6%AEw%B7%A7%BD%D7.doc" target="_blank">Chp1</a>
    
  2. 文件名是随机词。

    第二个问题可以通过添加--restrict-file-names=nocontrol来解决。

    如何解决第一个问题?这个Windows版本是个问题吗?

    显然,在HTML中,它会将带有特殊字符的网址转换为某种内容......

1 个答案:

答案 0 :(得分:0)

您的问题来自于Windows仍然会将您的UTF-8字符视为Latin-1字符,即使使用--restrict-file-names=nocontrol命令行参数也是如此。

GNU的网站记录了这个错误here,但对于Windows用户来说,它仍然是一个问题。但是,您的命令可以在Linux环境中运行。