我通常对Httrack没有任何问题,但这一次,我发现它无法抓住包含非日本网址的非ascii字符的网页:
domain.com/リーク情报の真伪のほ/
(浏览器通过这种方式阅读:domain.com/E3%83%A0%E7%A3%A8%E3%81%8D%E3%82%82%E5%A4%A7%E4%BA%8B %EF%BC%81%E3%82%B9%E3%83%9E%E3%83%9B%E3%83%95%E3%82%A9%E3%83%BC%E3%83%A0%E3 %81%A7%E3%81%AE%E6%9C%80%E9%81%A9%E3%81%AA-2 /)
Httrack可以抓取50%的文件夹,但其中的html文件都是0kb。 其他50%的字符串完全乱码,也是空的。
然后我尝试了DOS / ISO spidering选项,但它改变了结构太多(并使所有文件/文件夹都是大写的)。
有没有办法让httrack在这些网址上正常工作?