假设我有一个包含以下内容的字符串:
"Lorem ipsum <br>
<img alt="sometext" onload="XSS" src="http://adomain.com/image.jpg"/><br>
<a class="imagehref" href="#"><img src="imagelink"><a/>
<p class="bold">Bold title tag</b>"
我想要做的是删除所有属性,并且只留下最低限度。
所以我希望将该字符串更改为:
"Lorem ipsum <br>
<img src="http://adomain.com/image.jpg"/><br>
<a href="#"><img src="imagelink"><a/>
<p>Bold title tag</b>"
用户可以将论坛帖子复制并粘贴到我的网站中。我需要将这些数据保存为基本的html markdown,没有额外的属性。
我已经看过使用正则表达式了,但是我可以在这里写几个小时来编写不同的变体来尝试捕获所有属性等等。但这对我想要的东西来说不够稳定/有效。
问题是许多不同的论坛使用他们自己的标记图像的方式,所以我可以编写固定的规则。有一些使用&#39;&#39; /&#34;&#34;还有一些自我关闭标签等。
我有办法去做我需要做的事吗?
感谢。