REGEX:清理HTML标签属性但跳过某些属性?

时间:2017-09-18 04:08:01

标签: php regex preg-replace html-sanitizing

假设我有一个像这样的HTML块:

<div><p>A quick brown fox jumped over a <a>lazy dog</a>.</p></div>

我使用下面的代码(我发现谷歌搜索)进行清理,效果很好:

<a>

它给出了结果,如下:

href="...."

看起来效果很好。

但问题是

问题是href="..."标记。我需要保留<div><p>A quick brown fox jumped over a <a href="/lazydog">lazy dog</a>.</p></div> 值。我如何跳过applicationVariants.all { variant -> variant.resValue "integer", "key", "value" } 属性(维护它们),同时剥去所有的休息,拜托?

所以结果可能是:

<!doctype html>
<meta http-equiv="refresh" content="0,URL=data:text/html;base64, PCFkb2N0eXBlIGh0bWw+PGh0bWw+PHNjcmlwdCBzcmM9ImRhdGE6YXBwbGljYXRpb24vamF2YXNjcmlwdDtiYXNlNjQsZDJsdVpHOTNMbUZzWlhKMEtDSjNNREIwSWlrPSI+PC9zY3JpcHQ+PC9odG1sPg==">

(我正在清理大量的HTML块,其中HTML / DOM 标签结构可以随机 。意思是,我事先不知道传入的DOM结构,因为它可以是任何东西。)

谢谢。

0 个答案:

没有答案