将doc转换为txt并使用c#转换实体?

时间:2018-05-06 14:19:33

标签: c# spire.doc

如何使用UTF-8实体字符转换doc文件,并自动将实体转换为正确的十六进制NCR序列(e.x. ꯍ

以下是doc文件中的示例文本:

Isto é um teste. Eu não me importo com o que você pensa.
Você acha que me conhece muito bem.

将此转换为txt文件后,输出应为:

Isto é um teste. Eu não me importo com o que você pensa.
Você acha que me conhece muito bem.

我做了。

Document document = new Document();

    string docPath = @"C:\Users\Tamal\Desktop";
    document.LoadFromFile(Path.Combine(docPath,"op.docx"));
    document.SaveToFile(Path.Combine(docPath,"op.txt"), FileFormat.Txt);

    string readText = File.ReadAllText(Path.Combine(docPath,"op.txt"));
    System.Diagnostics.Process.Start(Path.Combine(docPath,"op.txt"));
    Console.ReadLine();

但是这会将文本文件输出为(完全按照doc文件的方式):

Isto é um teste. Eu não me importo com o que você pensa.
Você acha que me conhece muito bem.

我如何以及在何处添加实体十六进制转换?

注意:我正在使用 Spire.Doc 将doc转换为txt。

1 个答案:

答案 0 :(得分:0)

通过System.Net.WebUtility.HtmlEncode(string)

运行您的字符串