修剪HTML内容的空白?

时间:2009-10-11 11:58:14

标签: java javascript html html-parsing

我有一个带有自定义富文本编辑器控件的CRUD维护屏幕(实际上是FCKEditor),程序从控件中提取格式化的文本作为HTML以保存到数据库。但是,我们的部分标准是在保存之前需要从内容中删除前导空格和尾随空格,因此我必须删除无关的空格& nbsp;和< br>等从HTML字符串的开头和结尾开始。

我可以选择在客户端(使用Javascript)或在服务器端(使用Java)执行此操作是否有一种简单的方法来执行此操作,使用正则表达式或其他内容?我不确定它需要多么复杂,我需要能够删除像:

这样的东西
<p><br /> &nbsp;</p>

如果中间有任何有意义的文字,请保留它。 (上面的代码段来自测试人员保存的实际HTML数据)

1 个答案:

答案 0 :(得分:2)

/<p>(?:<br\s*\/>|&[#\w]{2,6};|[\s\n\r])*?<\/p>/g

这应该匹配所有不包含任何“有意义的文本”的段落。

最好在服务器端执行此操作。