将使用wget下载的网页的目录索引重命名为index.html

时间:2012-08-14 09:53:30

标签: wget

我目前正在使用相当复杂的wget命令,但它的本质是-p-k标志来下载所有先决条件。如何将主下载文件重命名为index.html?

例如,我下载了一个网页

http://myawesomewebsite.com/something/derp.html

例如,这将下载:

  1. derp.html
  2. style.css
  3. firstimage.png
  4. secondimage.jpg
  5. 甚至可能是iFrame:

    1. iframe.html
    2. iframe-style.css
    3. 现在问题是我如何将derp.html重命名为index.html,同时又不小心将iframe.html重命名为index.html,因为我不知道是什么已解析的下载文件的名称可能是?

      当我在包含网址http://something.tumblr.com/34324/post的Tumblr页面上尝试此方法时,它已下载为page.html

      我已经尝试了--output-document标志,但这导致根本没有下载任何内容。

      谢谢!

1 个答案:

答案 0 :(得分:0)

这就是我最终做的事情:

如果下载后找不到index.html,我使用Ruby获取网址的derp.html部分,然后搜索derp.html,然后将其重命名为index.html }。

它并不像我想的那么优雅,但它确实有用。