从mht中提取文本

时间:2009-05-15 17:29:09

标签: c# .net regex extract mhtml

我有一个mht文件,我希望得到mht的所有文本。我考虑使用正则表达式,但除了英语之外我还有mht中的其他语言,所以文本本身包含A7 = A98 = D6 ......

之类的东西

选择浏览器中查看的文件的所有文本,然后将其复制并粘贴到记事本中 - 这就是我需要的。

感谢。

1 个答案:

答案 0 :(得分:1)

在Internet Explorer中打开文件并将其另存为纯文本(UTF-8)。 :)如果您需要自动化解决方案,请为您的平台或编程语言寻找mht to txt转换器。

实际上,您也可以在Powershell中自动执行此操作:

$ie = New-Object -ComObject "InternetExplorer.Application"
$ie.Navigate2("file:///C:/MyFile.mht")
$text = $ie.Document.documentElement.innerText