从Html代码中删除css和脚本标记

时间:2013-04-29 05:56:39

标签: java html-parser

我有像

这样的字符串
<div style="width:100%"><table><tr class="abc"><td class="tdcss">some data</td></tr></table> 
</div>

强文 我想删除所有类和样式标签(我的意思是css和脚本标签)。 我希望我的字符串像

<div>
<table>
<tr>
<td>
some data
</td>
</tr>
</table>
</div>

我必须使用java来做到这一点。 任何人都可以帮助我......

2 个答案:

答案 0 :(得分:0)

1)找到Style的索引 2)然后找到下一个索引“” 然后删除这两个索引之间的字符串。 类似于Class。

String没有提供其他方法。您必须解析String并使用replace()或substring()方法

答案 1 :(得分:0)

如果字符串相当小,您可以选择使用正则表达式。 String.replaceAll接受正则表达式和替换字符串。所以你可以尝试类似的东西     yourString=yourString.replaceAll("style=\\".+?\\"", ""); yourString=yourString.replaceAll("class=\\".+?\\"", "");

试试http://gskinner.com/RegExr/ 它在样本字符串上有一个很好的正则表达式构建器asnd求值器。