使用wget仅以简单的xhtml格式下载dokuwiki页面

时间:2011-05-25 12:28:46

标签: wget sh dokuwiki

我目前正在修改offline-dokuwiki [1] shell脚本,以获取应用程序的最新文档,以便自动嵌入该应用程序的实例中。这很有效,除了它目前的形式,它抓取每个页面的三个版本:

  1. 包含页眉和页脚的整页
  2. 只是没有页眉和页脚的内容
  3. 原始维基语法
  4. 我实际上只对2感兴趣。这是通过<link>中的html <head>标记与主页相关联的,如下所示:

    <link rel="alternate" type="text/html" title="Plain HTML" 
    href="/dokuwiki/doku.php?do=export_xhtml&amp;id=documentation:index" /> 
    

    并且与主维基页面的URL相同,只是它们在查询字符串中包含'do = export_xhtml'。有没有办法指示wget只下载这些版本或自动添加'&amp; do = export_xhtml'到它所遵循的任何链接的末尾?如果是这样,这将是一个很大的帮助。

    [1] http://www.dokuwiki.org/tips:offline-dokuwiki.sh(作者:samlt)

1 个答案:

答案 0 :(得分:2)

DokuWiki也接受do参数作为HTTP标头。您可以使用参数--header“X-DokuWiki-Do:export_xhtml”运行wget