非常快速地读取doc文件c#

时间:2015-07-11 12:53:22

标签: c# ms-word

我想从.doc文件中提取文本,我使用此代码

Microsoft.Office.Interop.Word.Application word = new  Microsoft.Office.Interop.Word.Application();
object miss = System.Reflection.Missing.Value;
object path = FileToSave_path + FileNameToSave + ".doc";
object readOnly = true;
Microsoft.Office.Interop.Word.Document docs = word.Documents.Open(ref path, ref miss, ref readOnly, ref miss, ref miss, ref miss, ref miss, ref miss, ref miss, ref miss, ref miss, ref miss, ref miss, ref miss, ref miss, ref miss);
string totaltext = "";
for (int p = 0; p < docs.Paragraphs.Count; p++)
{
    ExtractedHTML += " \r\n " + docs.Paragraphs[p + 1].Range.Text.ToString();
}

docs.Close();
word.Quit();

问题是这段代码非常慢,我有很多带有很多段落的.doc文件 从.doc快速提取的任何其他方式?

1 个答案:

答案 0 :(得分:2)

这很慢,因为你需要开始&#39;每次都是字(这发生在水下,但仍然需要执行一些启动程序)。因此,如果您只关闭文档而不关闭Word本身(使用word.Quit();),则会有所帮助。

您还可以查看可以在没有Word帮助的情况下打开.doc文件的第三方库。对于.docx文件,您可以使用Microsoft自己的OpenXML SDK