Question

我想只获取起始的html标签。可以说我有像这样的HTML

<div class="some">Here is a sample text<br /><p>A paragraph here</p></div>
<ul><li>List Item</li></ul>

从上面的html我想提取这个信息

<div
<br
<p
<ul
<li

看我不需要结束'＆gt;'标签

Answer 1

尝试正则表达式/<[a-zA-Z]+[1-6]?/g。我为标题HTML标记添加了[1-6] - 我认为它们是唯一具有数字的标记。如果您想确定可以/<[a-zA-Z0-9]+/g，那么在HTML中，<始终是一个标记（除非它是评论<--），因为内联<获取转换为<。

Answer 2

以下内容将返回一个匹配数组，其中包含您希望从html主体获得的内容。

'<div class="some">Here is a sample text<br /><p>A paragraph here</p></div><ul><li>List Item</li></ul>'.match(/<\w+/g)

Answer 3

这个怎么样：

String input = "<div class=\"some\">Here is a sample text<br /><p>A paragraph here</p></div><ul><li>List Item</li></ul><6>";
Scanner scanner = new Scanner(input);
String result = "";
while( (result = scanner.findInLine("<\\w+")) !=null ){
    System.out.println(result);
}

用于获取html起始标记的正则表达式

3 个答案: