首先,我不是在谈论python html2text而是命令行工具:http://www.mbayer.de/html2text/
我正在使用此工具作为我的程序的一部分,为html文章生成一些小的文本预览。 到目前为止,这是我使用的行:
html2text -utf8 -nobs -style pretty filename.html
不幸的是,我现在遇到了使用像
这样的特殊字符的html代码ä
那些不会像预期那样被转换为“ä”甚至“ae”。
例如行:
<p class="caption">Steve Ballmer, Jahrgang 56, wird zumindest auf diesem Bild auf 56 Jahre geschätzt. </p>
应转换为:
Steve Ballmer, Jahrgang 56, wird zumindest auf diesem Bild auf 56 Jahre geschätzt.
但在此处生成此行:
Steve Ballmer, Jahrgang 56, wird zumindest auf diesem Bild auf 56 Jahre geschätzt.
文档说:
默认情况下,当提供-nometa时,html2text使用ISO 8859-1作为输入。指定此选项时,将使用UTF-8(用于输入和输出)。
所以我试着省略“-utf8”并使用“-nometa”。但仍然是相同的结果:( 我错过了一个选项吗?
请事先提供帮助。