如何从c#中的文档.doc或.docx中获取两个标题之间的所有文本

时间:2016-12-19 17:09:29

标签: c# dll .doc

如何获取两个标题之间的所有文本或特定标题下的文本?像..

“标题ABC”

“标题XYZ”
这是XYZ标题下的内容 测试..

“XYZ的子标题或标题2”
XYZ标题继续

“标题123” 标题123下的内容

我希望获得XYZ标题的所有内容,包括子标题,直到下一个标题123出现。如何找到该特定标题,然后在c#中获取该标题下的所有内容?文件可以是.doc或.docx

2 个答案:

答案 0 :(得分:1)

您可以使用NPOI库来阅读word文档。一些示例代码可以帮助您入门。

public string ReadAllTextFromWordDocFile(string fileName)
{
    using (StreamReader streamReader = new StreamReader(fileName))
    {
        var document = new HWPFDocument(streamReader.BaseStream);
        var wordExtractor = new WordExtractor(document);
        var docText = new StringBuilder();
        foreach (string text in wordExtractor.ParagraphText)
        {
            docText.AppendLine(text.Trim());
        }
        streamReader.Close();
        return docText.ToString();
    }
}

玩一下。

您还想看看DocX。基本示例here。每个段落的MagicText属性可以帮助您识别标题。

答案 1 :(得分:0)

<input type="checkbox"
    id="newsletterOptin"
    name="newsletterOptin" 
    checked="@(Model.newsletterOptin ? true : false)" />