将HTML网页呈现为Java中的文本

时间:2010-09-07 18:29:54

标签: java html-parsing

我希望以 human 可读形式获取网站的文本表示,例如超链接位置或输入字段。
有没有这样做的图书馆? (我已经检查了Jericho Renderer,但它没有显示输入字段)
例如

<div>
<form action="example.php">
Name:
<input type="text" name="name_field">
<input type="button" value="OK">
</form>
</div>

这样的事情

Name: [________] [OK]

1 个答案:

答案 0 :(得分:0)

尝试tag soup并自行构建。你得到一个HTML的DOM模型,可以吐出文本。