我很难找到一个库来将简单的HTML(包括<b>
,<i>
,<p>
,<li>
...)转换为简单的表示形式。显然这远远不能与HTML规范相匹配,但我不需要花哨的东西。例如lynx
对任务有好处(粗体和斜体除外,可能会在某些ANSI属性中翻译):
$ echo "<b>hello</b> <p>this is a <i>list</i> <ul><li>foo</li><li>bar</li></ul></p>" |
lynx -stdin -dump
hello
this is a list
* foo
* bar
理想的解决方案是python库。否则我会坚持使用lynx
...所以任何比我在这里建议的命令更好的命令也会被接受。
答案 0 :(得分:1)
html2text
并不是我想要的,但可以与其他一些观众约束相匹配。
它从html生成文本。本文遵循Markdown格式。因此,例如,没有使用ANSI属性。但是,由于Markdown是一种视觉纯文本格式,它可以满足一些需求。