如何将网页(从Intranet wiki)转换为Office文档?

时间:2012-06-04 20:04:58

标签: ms-word ms-office mediawiki data-conversion

我公司内部网上有一组Wiki页面(MediaWiki样式),我想将其转换为Microsoft Office Word文档(或者我可以在其中导入的内容)。我正在寻找具有以下内容的东西:

要求

  • 尽可能多地保留格式
  • 不需要更改托管Wiki的服务器上的任何内容(不能添加插件,也不能从我这边修改配置文件)
  • 解决方案可以通过编程方式(因为我也是开发人员),Python / C#/ C ++等的风格

排除

  • 看起来不像“Wiki to Acrobat PDF Pro to Microsof Office Word”(因为我们没有Acrobat PDF Pro)。实际上,即使是非Pro版本(允许“另存为Microsoft Word在线”选项)在我的公司(非常旧版本的Adobe套件)中也不可用。但是,我仍然可以将页面导出为PDF格式,但是从我们的Wiki中,它看起来并不好(因为某些元素太大,对于A4格式,并且额外的部分从生成的pdf中删除。我希望他们能够被包括在内并最终能够在Word中使用“糟糕”的格式化
  • 由于它是内联网维基,因此在线解决方案不在范围内
  • 暗示我可以复制Wiki的db并在其他地方(例如在家中)执行操作的解决方案也不在范围内

选项

  • 解决方案可以是Windows或类似Linux(CentOS)
  • 如果它可以批量执行,则更好,但不是必需的

问题

您是否有任何能够满足我需求的解决方案?

2 个答案:

答案 0 :(得分:6)

一个非常简单的解决方案是在Word的 Open Document 对话框中打开Wiki的URL,例如:将网址http://en.wikipedia.org/w/index.php?title=Microsoft_Word&printable=yes粘贴到文件名文本框中。这不需要任何编程,仍然会给出令人满意的结果。

如果您需要批处理解决方案,可以在VBA中编写一个简单的脚本,为您创建和保存文档:

Sub OpenFromWiki()

    Documents.Open FileName:= _
        "http://en.wikipedia.org/w/index.php?title=Microsoft_Word&printable=yes", _
         ConfirmConversions:=False, ReadOnly:=True, AddToRecentFiles:=False, _
        PasswordDocument:="", PasswordTemplate:="", Revert:=False, _
        WritePasswordDocument:=""

End Sub

答案 1 :(得分:1)

您可以安装OpenDocument Export Extension,这样您就可以下载OpenDocument格式的单页或Collections,可以用MS Word打开。

使用扩展程序内部使用的mwlib python package,您还可以轻松执行批处理脚本。