遇到日语编码的URL时出现Httrack错误

时间:2016-09-29 01:47:49

标签: url character-encoding httrack

我通常对Httrack没有任何问题,但这一次,我发现它无法抓住包含非日本网址的非ascii字符的网页:

domain.com/リーク情报の真伪のほ/

(浏览器通过这种方式阅读:domain.com/E3%83%A0%E7%A3%A8%E3%81%8D%E3%82%82%E5%A4%A7%E4%BA%8B %EF%BC%81%E3%82%B9%E3%83%9E%E3%83%9B%E3%83%95%E3%82%A9%E3%83%BC%E3%83%A0%E3 %81%A7%E3%81%AE%E6%9C%80%E9%81%A9%E3%81%AA-2 /)

Httrack可以抓取50%的文件夹,但其中的html文件都是0kb。 其他50%的字符串完全乱码,也是空的。

然后我尝试了DOS / ISO spidering选项,但它改变了结构太多(并使所有文件/文件夹都是大写的)。

有没有办法让httrack在这些网址上正常工作?

0 个答案:

没有答案