如何使用C#和OpenXml访问Word文档中的大纲编号?

时间:2013-12-22 10:28:03

标签: c# excel ms-word openxml

我正在尝试将Microsoft Word 2010中的大纲转移到Microsoft Excel 2010中的电子表格中。我正在使用DocumentFormat.OpenXml.PackingDocumentformat.OpenXml.Wordprocessing

我获取文档的正文,并使用它来获取所有段落对象的列表:

var allParagraphs = new List<Paragraph>();
WordprocessingDocument wordprocessingDocument = WordprocessingDocument.Open(wordDocPath.Text, false);
Body body = wordprocessingDocument.MainDocumentPart.Document.Body;
allParagraphs = body.OfType<Paragraph>().ToList();

但我似乎无法找到任何存储该段落旁边的大纲编号的内容。除了文档中的段落之外,我是否需要抓取其他对象以获取每个段落的大纲编号(如果有的话)?

我所说的大纲编号显示在以下屏幕截图中这些标题的左侧:

outline numbering of an outline

不幸的是,ParagraphProperties.OutlineLevel为空,即使我知道它是单词文档中大纲的一部分。

1 个答案:

答案 0 :(得分:4)

既然我已经理解了你想要的东西,那么你应该如何解决问题。

首先,我建议您从here下载Open XML Productivity工具。一旦你知道文件的底层xml是什么样子,就可以很容易地解决这个问题了。

<w:p w:rsidR="004265BF" w:rsidP="00AD13B6" w:rsidRDefault="00AD13B6">
 <w:pPr>
  <w:pStyle w:val="ListParagraph" />
  <w:numPr>
   <w:ilvl w:val="0" />
   <w:numId w:val="2" />
  </w:numPr>
 </w:pPr>
 <w:r>
  <w:t>Requirements</w:t>
 </w:r>
</w:p>
<w:p w:rsidR="00AD13B6" w:rsidP="00AD13B6" w:rsidRDefault="00AD13B6">
 <w:pPr>
  <w:pStyle w:val="ListParagraph" />
   <w:numPr>
    <w:ilvl w:val="1" />
    <w:numId w:val="2" />
   </w:numPr>
  </w:pPr>
  <w:r>
   <w:t>Performance</w:t>
  </w:r>
</w:p>

上面你可以看到只有几段的XML。每个段落都有相应的,包含。

每个word文档都包含许多不同的XML文件,这些文件充当对整个文档正文中使用的样式和值的引用。对于大纲,有Numbering.xml。

这里的每个numId引用numbering.xml中的AbstractNumId,然后在同一文件中引用abstractNum。你可以从那里得到你的大纲编号。

我知道这听起来可能很乏味,但这是唯一能做到的方法。

Open Xml Productivity Tool Snapshot

一切顺利!

using (WordprocessingDocument doc = WordprocessingDocument.Open("word-wrP.docx", true))
        {
            Body body = doc.MainDocumentPart.Document.Body;

            //Documents' numbering definition
            Numbering num = doc.MainDocumentPart.NumberingDefinitionsPart.Numbering;

            //Get all paragraphs in the document
            IEnumerable<Paragraph> paragraphs = doc.MainDocumentPart.Document.Body.OfType<Paragraph>();
            foreach (Paragraph paragraph in paragraphs)
            {
                int tempLevel = 0; 

                //Each paragraph has a reference to a numbering definition that is defined by the numbering ID
                NumberingId numId = paragraph.ParagraphProperties.NumberingProperties.NumberingId;

                //NumberingLevelReference defines the outline level or the "indent" of Numbering, index starts at Zero.
                NumberingLevelReference iLevel =
                    paragraph.ParagraphProperties.NumberingProperties.NumberingLevelReference;

                //From the numbering reference we get the actual numbering definition to get start value of the outline etc etc.
                var firstOrDefault =
                    num.Descendants<NumberingInstance>().FirstOrDefault(tag => tag.NumberID == (int)numId.Val);
                if (firstOrDefault != null)
                {
                    var absNumId =
                        firstOrDefault.GetFirstChild<AbstractNumId>();
                    AbstractNum absNum =
                        num.OfType<AbstractNum>().FirstOrDefault(tag => tag.AbstractNumberId == (int)absNumId.Val);
                    if (absNum != null)
                    {
                        StartNumberingValue start = absNum.OfType<StartNumberingValue>().FirstOrDefault();
                        // once you have the start value its just a matter of counting the paragraphs that have the same numberingId and from the Number
                        //ingLevel you can calculate the actual values that correspond to each paragraph.
                        if (start != null) startValue = start.Val;
                    }
                }
                else
                {
                    Console.WriteLine("Failed!");
                }
            }
        }