如何使用java去除所有html标签并提取内容?

时间:2011-11-29 19:52:26

标签: java

我要求从字符串中转义所有html标记并仅提取内容。我将输入HTML内容。例如

<html><body><input type=’text’ value=’Hello World’ size=’50’ /> <div> This is a basic example </div><br/><span align=’center’>Hello Sam!!!</span></body><html>

我需要输出如下:

Hello World. This is a basic example.
Hello Sam!!!

我曾尝试使用HtmlCleaner甚至JSoup。首先,我没有得到任何完整的示例应用程序。我能够提取

This is a basic example.
Hello Sam!!!

使用HTMLCleaner但无法提取文本框值,因为它是一个属性。请帮忙。

1 个答案:

答案 0 :(得分:2)

Here's an example,使用JSoup,显示如何从元素中提取属性值。