使用AltChunks合并文档的内容为空

时间:2016-05-18 14:02:35

标签: c# ms-word openxml openxml-sdk wordprocessingml

我正在尝试将多个文档合并为一个文档,然后打开结果文档并进一步处理。

" ChunkId"是每次调用此方法以获得唯一ID时增加的属性。我按照this site的例子。 这是用于合并多个文档的代码(使用altchunks): `

private void MergeDocument(string mergePath, bool appendPageBreak)
    {
        if (!File.Exists(mergePath))
        {
            Log.Warn(string.Format("Document: \"{0}\" was not found.", mergePath));
            return;
        }

        ChunkId++;
        var altChunkId = "AltChunkId" + ChunkId;

        var mainDocPart = DestinationDocument.MainDocumentPart;
        if (mainDocPart == null)
        {
            DestinationDocument.AddMainDocumentPart();
            mainDocPart = DestinationDocument.MainDocumentPart;
            if (mainDocPart.Document == null)
                mainDocPart.Document = new Document { Body = new Body() };
        }

        try
        {
            var chunk = mainDocPart.AddAlternativeFormatImportPart(
                AlternativeFormatImportPartType.WordprocessingML, altChunkId);
            if (chunk != null)
                using (var ms = new FileStream(mergePath, FileMode.Open))
                {
                    chunk.FeedData(ms);
                }
            else
            {
                Log.Error(string.Format("Merge - Failed to create chunk document based on \"{0}\".", mergePath));
                return; // failed to create chunk document, return from merge method

            }
        }
        catch (Exception e)
        {
            Log.Error(string.Format("Merge - Failed to insert chunk document based on \"{0}\".", mergePath));
            return; // failed to create chunk document, return from merge method

        }

        var altChunk = new AltChunk { Id = altChunkId };

        //append the page break
        if (appendPageBreak)
            try
            {
                AppendPageBreak(mainDocPart);
                Log.Info(string.Format("Successfully appended page break."));
            }
            catch (Exception ex)
            {
                Log.Error(string.Format("Eror appending page break. Message: \"{0}\".", ex.Message));
                return; // return if page break insertion failed
            }

        // insert the document 
        var last = mainDocPart.Document
        .Body
        .Elements()
        .LastOrDefault(e => e is Paragraph || e is AltChunk);
        try
        {
            if (last == null)
                mainDocPart.Document.Body.InsertAt(altChunk, 0);
            else
                last.InsertAfterSelf(altChunk);
            Log.Info(string.Format("Successfully inserted new doc \"{0}\" into destination.", mergePath));
        }
        catch (Exception ex)
        {
            Log.Error(string.Format("Error merging document \"{0}\". Message: \"{1}\".", mergePath, ex.Message));
            return; // return if the merge was not successfull
        }

        try
        {
            mainDocPart.Document.Save();
        }
        catch (Exception ex)
        {
            Log.Error(string.Format("Error saving document \"{0}\". Message: \"{1}\".", mergePath, ex.Message));
        }
    }`

如果我用Word打开合并文档,我可以看到它的内容(表格,文本,段落......),但如果我再次从代码打开它会说内部文本是"" (空字符串)。我需要内部文本来反映文档包含的内容,因为我必须替换一些占位符,如" @@ name @@"如果内部文本是空的,我可以使用另一个文本。

这是合并文档的innerxml,

enter image description here

这是我打开合并文档的方式:

DestinationDocument = WordprocessingDocument.Open(Path.GetFullPath(destinationPath), true);

如何阅读文档的内部文本?或者我如何将这些文档合并为一个文档,以便不再出现此问题?

2 个答案:

答案 0 :(得分:1)

当文档与AltChunk合并时,它就像是原始word文档的嵌入附件。客户端(MS Word)处理altchunk部分的呈现。因此,生成的文档不会包含合并文档的openxml标记。

如果您想使用生成的文档进行进一步的程序化后处理,请使用Openxml Power Tools。 pelase参考我的回答here

Openxml powertools - https://github.com/OfficeDev/Open-Xml-PowerTools

答案 1 :(得分:0)

问题是文档没有真正合并(本身), altChunk 元素只定义了替代内容应放在文档中的位置,并且它引用了该替代方案内容。
当您在MS Word中打开此文档时,它将实际自动合并所有这些替代内容。因此,当您使用MS Word重新保存该文档时,您将不再拥有 altChunk 元素。

然而,你可以做的就是使用那些 altChunk DOCX文件(子DOCX文档)实际操作,就像使用 DOCX文件(父文档)一样

例如:

string destinationPath = "Sample.docx";
string search = "@@name@@";
string replace ="John Doe";

using (var parent = WordprocessingDocument.Open(Path.GetFullPath(destinationPath), true))
{
    foreach (var altChunk in parent.MainDocumentPart.GetPartsOfType<AlternativeFormatImportPart>())
    {
        if (Path.GetExtension(altChunk.Uri.OriginalString) != ".docx")
            continue;

        using (var child = WordprocessingDocument.Open(altChunk.GetStream(), true))
        {
            var foundText = child.MainDocumentPart.Document.Body
                .Descendants<Text>()
                .Where(t => t.Text.Contains(search))
                .FirstOrDefault();

            if (foundText != null)
            {
                foundText.Text = foundText.Text.Replace(search, replace);
                break;
            }
        }
    }
}

或者,您需要使用某种方法来合并这些文档。 Flowerking提到了一个解决方案,另一个可以尝试使用GemBox.Document库的解决方案。它将在加载时合并那些替代内容(正如MS Word在打开时所做的那样)。

例如:

string destinationPath = "Sample.docx";
string search = "@@name@@";
string replace = "John Doe";

DocumentModel document = DocumentModel.Load(destinationPath);

ContentRange foundText = document.Content.Find(search).FirstOrDefault();
if (foundText != null)
    foundText.LoadText(replace);

document.Save(destinationPath);