如何从字符串中删除某些html标签?

时间:2012-08-09 19:33:33

标签: javascript jquery html parsing text

我有一个<textarea>用户输入内容,并允许他们输入html。完成输入后,<textarea>会更改回包含刚输入内容的<span>。但是,在将其重新放入<script>之前,我想删除某些标记,例如<div><span>等等。

1 个答案:

答案 0 :(得分:16)

信不信由你可以(安全地)使用浏览器的内置HTML解析器。只需使用document.createElement创建一个新的div,然后使用innerHTML将textarea的内容扔到div中,并且presto,你有一个完整的DOM可以使用。不,此div中包含的脚本将进行评估。

这是一个简单的示例,它从元素中剥离所有未出现在ALLOWED_TAGS列表中的标记。

var ALLOWED_TAGS = ["STRONG", "EM", "BLOCKQUOTE", "Q", "DEL", "INS", "A"];

function sanitize(el) {
    "Remove all tags from element `el' that aren't in the ALLOWED_TAGS list."
    var tags = Array.prototype.slice.apply(el.getElementsByTagName("*"), [0]);
    for (var i = 0; i < tags.length; i++) {
        if (ALLOWED_TAGS.indexOf(tags[i].nodeName) == -1) {
            usurp(tags[i]);
        }
    }
}

function usurp(p) {
    "Replace parent `p' with its children.";
    var last = p;
    for (var i = p.childNodes.length - 1; i >= 0; i--) {
        var e = p.removeChild(p.childNodes[i]);
        p.parentNode.insertBefore(e, last);
        last = e;
    }
    p.parentNode.removeChild(p);
}​

如前所述,您必须创建一个空div容器才能使用它。这是该技术的一个示例应用程序,一个清理字符串的函数。但请注意,“清理”在这个时候是一个误称 - 在“清洁剂”输出真正安全的HTML之前,需要做更多工作(清理属性字符串等)。

function sanitizeString(string) {
    var div = document.createElement("div");
    div.innerHTML = string;
    sanitize(div);
    return div.innerHTML;
}