包含HTML标记,但只包含字符列表

时间:2016-03-29 10:57:37

标签: javascript regex

我有HTML标签的字符串文本(例如俄语) 我需要使用JavaScript RegEx获取所有单词并排除HTML标记

这是我的RegEx

reg = /([^\r\n\t\f>< /]+(?!>))\b/g;

例如,在俄语中,我需要将所有HTML标记保留在我的字符串文本中,但保留所有工作的俄语([\wа-я] +)

可以排除&amp;在JavaScript RegEx中包含一些内容吗?

1 个答案:

答案 0 :(得分:1)

我不会尝试使用regexp解析HMTL。相反,获取DOM节点的innerText属性:

HTML:

<div id="myRussianText">
    Lorem <span>ipsum</span>
</div>

JS:

var el = document.getElementById('myRussianText');
var text = el.innerText; // 'Lorem ipsum'

https://jsfiddle.net/cn0np3yf/