从Microsoft Word中提取特定信息

时间:2013-04-06 04:49:34

标签: c# ms-word text-extraction

假设我有一个word文档,内容如下所示

Name: Blabla1
Address: Blablabla2
History Employment: Blablabla3
                    Blablabla4
                    Blablabla5

我的问题是如何以及在C#中将该信息提取到类中的算法(如果存在)。

Class Employee {
    public string Name { get; set; }
    public string Address { get; set; }
    public IEnumerable<string> History = new IList<string>();
}

有什么建议吗?

var Employee = ExtractMethodFromDoc(docPath);

2 个答案:

答案 0 :(得分:1)

MS Word完全可以通过OLE自动化编写脚本。

为此,c#中没有通用库。您可以使用第三方应用转换为其他格式,例如ASCII。

您也可以将此链接引用到PERL模块:

http://www.xav.com/perl/site/lib/Win32/OLE.html

您也可以参考此MSDN:

http://msdn.microsoft.com/en-us/library/cc974107%28office.12%29.aspx

您还可以使用下面的Open XML SDK 2.0 Code链接:

http://www.microsoft.com/en-us/download/details.aspx?id=17985

答案 1 :(得分:0)

您可以使用Microsoft Word dll。 创建单词dll的对象并加载数据。