如何使用Java创建XHTML的基本人类可读纯文本表示?

时间:2011-02-23 18:14:19

标签: java html xhtml plaintext

鉴于一些简单的XHTML,我想创建一个人类可读的纯文本版本。这将涉及删除所有HTML标记,但添加或保留一些空格。

例如,此输入:

<div>
<p>This is some text, some is <b>bold</b>.</p>
<ul>
  <li>Point one</li>
  <li>Point two</li>
</ul>
</div>

会变成:

"This is some text, some is bold. Point one Point two"

(LI之间的逗号是理想的......:)

1 个答案:

答案 0 :(得分:4)

Jericho HTML Parser。您可以剥离所有标签或调用试图模仿外观的“渲染器”类(例如,您的项目符号列表将被标记)