通过API和文本操作修改OpenXML Word文档

时间:2012-07-20 18:32:18

标签: c# ms-word openxml-sdk

我正在研究原型,以取代现有的基于文字自动化的系统进行模板渲染,目前正在评估OpenXML SDK。模板库非常广泛(150-200个模板,由非技术资源维护)所以我希望避免任何模板更改,而不是从1997-2003字格式升级。

当前嵌入的标签有时需要用文本替换,有时需要用图像/图表等替换...(现在假设所有图表都会在插入之前呈现给图像)。

我能够使用类似于this MSDN article中描述的技术进行直接文本替换。我的场景稍微复杂一些,但看起来像这样:

    public void ReplaceFirstOccurrenceWithText(string tagBody, string replacement)
    {
        var modifiedText = GetCurrentText();
        modifiedText = modifiedText.ReplaceFirst(tagBody, XmlEncoder.Encode(replacement));
        using (var sw = new StreamWriter(document.MainDocumentPart.GetStream(FileMode.Create)))
        {
            sw.Write(modifiedText);
        }
    }

    public string GetCurrentText()
    {
        using(var reader = new StreamReader(document.MainDocumentPart.GetStream()))
        {
            return reader.ReadToEnd();
        }
    }

我不保存字符串的原因是因为我希望底层文档保持最新,所以我可以通过普通的API添加图像。使用another MSDN article中描述的技术:

    public void ReplaceFirstOccurrenceWithImage(string tagBody, byte[] replacement)
    {
        ReplaceFirstOccurrenceWithText(tagBody, "IMAGE TAG WAS HERE!");
        var main = document.MainDocumentPart;
        var imagePart = main.AddImagePart(ImagePartType.Gif);//sniff this by loading bytes into a bitmap
        using(var imageStream = new MemoryStream(replacement))
        {
            imagePart.FeedData(imageStream);
        }

        ImageInserter.AddImageToBody(document, main.GetIdOfPart(imagePart));
    }

ImageInserter实际上是该文章中代码的复制/粘贴(我意识到这些抽象并不是最好的,但我只是想在这一点上努力工作)。

现在它变得毛茸茸 - 文件APPEARS保持同步。图像是第一个被替换的标签,标签的文本替换工作,以及在文档底部添加图像。我的问题是,在此之后,后续的文本替换似乎根本不起作用 - 所有其他标记都保留在文档中。但是,如果我在文本替换函数中设置了一个断点,则每次调用.GetCurrentText()都会返回正确的结果(带有标记的文本已被替换)。但是当我保存文档时,只保存了第一个替换文件。

有没有人碰到这样的事情?下一步将是尝试分阶段的方法(解决所有标签,首先运行直接文本替换,然后进行所有图像替换)但我觉得无论出现什么错误,无论订单如何都会出现问题。

1 个答案:

答案 0 :(得分:3)

如果我在哪里,我会调查

http://docx.codeplex.com

对于一般的东西来说它更直接......也许你正在做一些比图书馆可以处理的更复杂的东西但我会看看它。