Question

<b>Topic1</b><ul>asdasd</ul><br/><b>Topic2</b><ul>....

我想提取Topic1和下一个开始标记之后的所有内容。在这种情况下，<ul>asdasd</ul> 。

问题：它不一定必须是标记，但可以是任何其他重复标记。

所以我的问题是：如何动态提取这些文字？唯一的静态思考是：

要查找的信号关键字始终为“Topic1”。我想把周围的标签作为要查找的标签。
标签总是重复。在这种情况下，它总是，也可能是或或<h1>等。

我知道如何编写java代码，但正则表达式会是什么样的？

String regex = ">Topic1<";
Matcher m = Pattern.compile(regex).matcher(text);
while (m.find()) {
    for (int i = 1; i <= m.groupCount(); i++) {
        System.out.println(m.group(i));
    }
}

Answer 1

以下内容应该有效

Topic1</(.+?)>(.*?)<\\1>

输入：Topic1<ul>asdasd</ul> Topic2<ul>

输出：<ul>asdasd</ul> 

代码：

    Pattern p = Pattern.compile("Topic1</(.+?)>(.*?)<\\1>");
    //  get a matcher object
    Matcher m = p.matcher("<b>Topic1</b><ul>asdasd</ul><br/><b>Topic2</b><ul>");
    while(m.find()) {
        System.out.println(m.group(2));  // <ul>asdasd</ul><br/>
    }

Answer 2

试试这个

String pattern = "\\<.*?\\>Topic1\\<.*?\\>"; // this will see the tag no matter what tag it is
String text = "<b>Topic1</b><ul>asdasd</ul><br/><b>Topic2</b>"; // your string to be split
String[] attributes = text.split(pattern);
for(String atr : attributes) 
{
    System.out.println(atr);
}

将打印出来：

<ul>asdasd</ul><br/><b>Topic2</b>

使用未知标记名的html标记之间的提取？

2 个答案: