我试图使用wget来压扁我们拥有的微型网站。
wget -P ~/wget/feature/ -mpck -o feature.log --no-parent --restrict-file-names="nocontrol" --user-agent="" -e robots=off --wait 1 -E http://www.hollywoodreporter.com/feature/
css文件全部获得404,因为index.html中的链接已从以下转换:
<script type='text/javascript' src='http://www.hollywoodreporter.com/feature/wp-content/plugins/CuteSlider/js/cute.slider.js?ver=1.1.1'></script>
到
<script type='text/javascript' src='http://www.hollywoodreporter.com/feature/wp-content/plugins/CuteSlider/js/cute.slider.js%3Fver=1.1.1'></script>
问号查询指标已动态更改为%3F。浏览器和卷曲不会这样做。
restrict-file-names选项无效。
这是OS X的特立独行者。
我怎样才能让wget停止这样做?或者是否有其他事情可以进行修改?
由于
答案 0 :(得分:1)
我通过将--restrict-file-names="nocontrol"
更改为--restrict-file-names="ascii"
然而,总体结果仍然相当糟糕。 Wget改变了很多链接,修复似乎不切实际。 Httrack为我们带来了更好的结果。还有一些编辑和.htaccess文件需要,但很容易完成。