如何使用UTF-8实体字符转换doc文件,并自动将实体转换为正确的十六进制NCR序列(e.x. ꯍ
)
以下是doc文件中的示例文本:
Isto é um teste. Eu não me importo com o que você pensa.
Você acha que me conhece muito bem.
将此转换为txt文件后,输出应为:
Isto é um teste. Eu não me importo com o que você pensa.
Você acha que me conhece muito bem.
我做了。
Document document = new Document();
string docPath = @"C:\Users\Tamal\Desktop";
document.LoadFromFile(Path.Combine(docPath,"op.docx"));
document.SaveToFile(Path.Combine(docPath,"op.txt"), FileFormat.Txt);
string readText = File.ReadAllText(Path.Combine(docPath,"op.txt"));
System.Diagnostics.Process.Start(Path.Combine(docPath,"op.txt"));
Console.ReadLine();
但是这会将文本文件输出为(完全按照doc文件的方式):
Isto é um teste. Eu não me importo com o que você pensa.
Você acha que me conhece muito bem.
我如何以及在何处添加实体十六进制转换?
注意:我正在使用 Spire.Doc 将doc转换为txt。
答案 0 :(得分:0)
通过System.Net.WebUtility.HtmlEncode(string)
运行您的字符串