从Wiki网站下载文件,同时保持文件井井有条

时间:2018-07-17 13:38:46

标签: download wget wiki

今年夏天,我正在为我的父亲公司工作,任务是从公司Wiki网站导出所有文件。我知道将它们全部导出并不是很困难,但是我想知道是否存在一种有效的方法来导出它们,同时又将它们保持在相似的结构/组织中,这样我就不会仅有数百个未组织的文件。这是一个MoinMoin Wiki,如果可以使事情变得更容易,那么我确实可以访问运行该Wiki的服务器。谢谢。

2 个答案:

答案 0 :(得分:0)

登录到服务器,然后仅复制your_path / wiki / data及其子文件夹和内容。不必担心任何符号链接,因此类似以下的内容应该起作用。

cp -R your_path/wiki/data your_destination

但是,当您说“导出所有文件”时,这也可能意味着某些文件不在Wiki /数据中(配置文件,cgi可执行文件和公用文件夹中的文件)。同样,不清楚的是,您是否只想要页面的当前版本及其上载,还是想要具有所有页面历史记录和日志的完整Wiki。

答案 1 :(得分:0)

由于您无法访问服务器,因此可以尝试使用wget来递归地镜像Wiki:

wget --no-parent \
     --mirror \
     --page-requisites \
     --adjust-extension \
     <home page url>

documentation中描述了我使用的选项,如下所示:

  

-没有父母

     

...限制目录的一种非常有用的方法是不允许检索指向起始目录之上的层次结构的链接

     

-镜子

     

...此选项打开递归和时间戳记,设置无限递归深度并保留FTP目录列表。

     

-页面要求

     

......此选项使Wget下载正确显示给定HTML页面所需的所有文件

     

-调整扩展名

     

...如果下载了'application / xhtml + xml'或'text / html'类型的文件,并且URL并非以正则表达式'。[Hh] [Tt] [Mm] [Ll]结尾? ',此选项将导致后缀'.html'附加到本地文件名。