我想只获取起始的html标签。可以说我有像这样的HTML
<div class="some">Here is a sample text<br /><p>A paragraph here</p></div>
<ul><li>List Item</li></ul>
从上面的html我想提取这个信息
<div
<br
<p
<ul
<li
看我不需要结束'&gt;'标签
答案 0 :(得分:1)
尝试正则表达式/<[a-zA-Z]+[1-6]?/g
。我为标题HTML标记添加了[1-6]
- 我认为它们是唯一具有数字的标记。如果您想确定可以/<[a-zA-Z0-9]+/g
,那么在HTML中,<
始终是一个标记(除非它是评论<--
),因为内联<
获取转换为<
。
答案 1 :(得分:1)
以下内容将返回一个匹配数组,其中包含您希望从html主体获得的内容。
'<div class="some">Here is a sample text<br /><p>A paragraph here</p></div><ul><li>List Item</li></ul>'.match(/<\w+/g)
答案 2 :(得分:0)
这个怎么样:
String input = "<div class=\"some\">Here is a sample text<br /><p>A paragraph here</p></div><ul><li>List Item</li></ul><6>";
Scanner scanner = new Scanner(input);
String result = "";
while( (result = scanner.findInLine("<\\w+")) !=null ){
System.out.println(result);
}