html2text:转换特殊字符

时间:2015-05-03 15:43:55

标签: linux command-line

首先,我不是在谈论python html2text而是命令行工具:http://www.mbayer.de/html2text/

我正在使用此工具作为我的程序的一部分,为html文章生成一些小的文本预览。 到目前为止,这是我使用的行:

html2text -utf8 -nobs -style pretty filename.html

不幸的是,我现在遇到了使用像

这样的特殊字符的html代码
ä

那些不会像预期那样被转换为“ä”甚至“ae”。

例如行:

<p class="caption">Steve Ballmer, Jahrgang 56, wird zumindest auf diesem Bild auf 56 Jahre gesch&#xE4;tzt. </p>

应转换为:

Steve Ballmer, Jahrgang 56, wird zumindest auf diesem Bild auf 56 Jahre geschätzt.

但在此处生成此行:

Steve Ballmer, Jahrgang 56, wird zumindest auf diesem Bild auf 56 Jahre gesch&#xE4;tzt.

文档说:

  

默认情况下,当提供-nometa时,html2text使用ISO 8859-1作为输入。指定此选项时,将使用UTF-8(用于输入和输出)。

所以我试着省略“-utf8”并使用“-nometa”。但仍然是相同的结果:( 我错过了一个选项吗?

请事先提供帮助。

0 个答案:

没有答案