Question

我有一个很长的HTML字符串，我想解析它只允许某些html标签通过。

允许的标签是粗体，斜体，下划线，段落，有序列表和无序列表。

应返回这些标签及其相应的文字。应删除所有其他标记，并且只留下innerHTML。

对于以下输入，输出应如下：

输入：There is some text here 输出：There is some text here

输入：text here 输出：文字在这里

输入：<div>Combo of allowed tag and disallowed tag</div> 输出：Combo of allowed tag and disallowed tag

我看过这个类似的问题：Regex to allow only set of HTML Tags and Attributes。但是，我想知道你将如何在Javascript中做到这一点？我目前正在遍历html并搜索允许的标签，如下所示：

var htmlString = "<p>There is some <u>text</u> here</p>";
var allowedTags = ["<b>", "<i>", "<u>", "<p>", "<ol>", "<ul>"];
for (i = 0, len = allowedTags.length; i < len; i++) {
    var ind = htmlString.indexOf(allowedTags[i]);
}

但是这不起作用，特别是如果你在一个字符串中有多个html标签。非常感谢您的帮助！

Answer 1

看起来你想在javascript中模仿php 您可以尝试 phpjs.org function strip_tags see here

function strip_tags(input, allowed) {
//  discuss at: http://phpjs.org/functions/strip_tags/
// original by: Kevin van Zonneveld (http://kevin.vanzonneveld.net)
// improved by: Luke Godfrey
// improved by: Kevin van Zonneveld (http://kevin.vanzonneveld.net)
//    input by: Pul
//    input by: Alex
//    input by: Marc Palau
//    input by: Brett Zamir (http://brett-zamir.me)
//    input by: Bobby Drake
//    input by: Evertjan Garretsen
// bugfixed by: Kevin van Zonneveld (http://kevin.vanzonneveld.net)
// bugfixed by: Onno Marsman
// bugfixed by: Kevin van Zonneveld (http://kevin.vanzonneveld.net)
// bugfixed by: Kevin van Zonneveld (http://kevin.vanzonneveld.net)
// bugfixed by: Eric Nagel
// bugfixed by: Kevin van Zonneveld (http://kevin.vanzonneveld.net)
// bugfixed by: Tomasz Wesolowski
//  revised by: Rafał Kukawski (http://blog.kukawski.pl/)
//   example 1: strip_tags('<p>Kevin</p> <br /><b>van</b> <i>Zonneveld</i>', '<i><b>');
//   returns 1: 'Kevin <b>van</b> <i>Zonneveld</i>'
//   example 2: strip_tags('<p>Kevin <img src="someimage.png" onmouseover="someFunction()">van <i>Zonneveld</i></p>', '<p>');
//   returns 2: '<p>Kevin van Zonneveld</p>'
//   example 3: strip_tags("<a href='http://kevin.vanzonneveld.net'>Kevin van Zonneveld</a>", "<a>");
//   returns 3: "<a href='http://kevin.vanzonneveld.net'>Kevin van Zonneveld</a>"
//   example 4: strip_tags('1 < 5 5 > 1');
//   returns 4: '1 < 5 5 > 1'
//   example 5: strip_tags('1 <br/> 1');
//   returns 5: '1  1'
//   example 6: strip_tags('1 <br/> 1', '<br>');
//   returns 6: '1 <br/> 1'
//   example 7: strip_tags('1 <br/> 1', '<br><br/>');
//   returns 7: '1 <br/> 1'

allowed = (((allowed || '') + '')
.toLowerCase()
.match(/<[a-z][a-z0-9]*>/g) || [])
.join(''); // making sure the allowed arg is a string containing only tags in lowercase (<a><b><c>)
var tags = /<\/?([a-z][a-z0-9]*)\b[^>]*>/gi,
commentsAndPhpTags = /<!--[\s\S]*?-->|<\?(?:php)?[\s\S]*?\?>/gi;
return input.replace(commentsAndPhpTags, '')
.replace(tags, function($0, $1) {
  return allowed.indexOf('<' + $1.toLowerCase() + '>') > -1 ? $0 : '';
});
}

就这样使用它：

var str = strip_tags(
   '<p>There is some <u>text</u> here</p>',
   '<b><i><u><p><ol><ul>' // Allowed tags
);

Javascript只允许使用特定的HTML代码

1 个答案: