用于获取html起始标记的正则表达式

时间:2012-01-20 05:40:43

标签: javascript regex

我想只获取起始的html标签。可以说我有像这样的HTML

<div class="some">Here is a sample text<br /><p>A paragraph here</p></div>
<ul><li>List Item</li></ul>

从上面的html我想提取这个信息

<div
<br
<p
<ul
<li

看我不需要结束'&gt;'标签

3 个答案:

答案 0 :(得分:1)

尝试正则表达式/<[a-zA-Z]+[1-6]?/g。我为标题HTML标记添加了[1-6] - 我认为它们是唯一具有数字的标记。如果您想确定可以/<[a-zA-Z0-9]+/g,那么在HTML中,<始终是一个标记(除非它是评论<--),因为内联<获取转换为&lt;

答案 1 :(得分:1)

以下内容将返回一个匹配数组,其中包含您希望从html主体获得的内容。

'<div class="some">Here is a sample text<br /><p>A paragraph here</p></div><ul><li>List Item</li></ul>'.match(/<\w+/g)

答案 2 :(得分:0)

这个怎么样:

String input = "<div class=\"some\">Here is a sample text<br /><p>A paragraph here</p></div><ul><li>List Item</li></ul><6>";
Scanner scanner = new Scanner(input);
String result = "";
while( (result = scanner.findInLine("<\\w+")) !=null ){
    System.out.println(result);
}