Wget正在将问号转换为%3f,导致404s

时间:2014-03-18 16:57:53

标签: wget

我试图使用wget来压扁我们拥有的微型网站。

wget -P ~/wget/feature/ -mpck -o feature.log --no-parent --restrict-file-names="nocontrol" --user-agent="" -e robots=off --wait 1 -E http://www.hollywoodreporter.com/feature/

css文件全部获得404,因为index.html中的链接已从以下转换:

<script type='text/javascript' src='http://www.hollywoodreporter.com/feature/wp-content/plugins/CuteSlider/js/cute.slider.js?ver=1.1.1'></script>

<script type='text/javascript' src='http://www.hollywoodreporter.com/feature/wp-content/plugins/CuteSlider/js/cute.slider.js%3Fver=1.1.1'></script>

问号查询指标已动态更改为%3F。浏览器和卷曲不会这样做。

restrict-file-names选项无效。

这是OS X的特立独行者。

我怎样才能让wget停止这样做?或者是否有其他事情可以进行修改?

由于

1 个答案:

答案 0 :(得分:1)

我通过将--restrict-file-names="nocontrol"更改为--restrict-file-names="ascii"

来解决了当前的问题

然而,总体结果仍然相当糟糕。 Wget改变了很多链接,修复似乎不切实际。 Httrack为我们带来了更好的结果。还有一些编辑和.htaccess文件需要,但很容易完成。