Question

我目前正在为字符串abc 或xyabcd 或<th>ab </th>wvx等的以下要求生成正则表达式。

我的要求是删除<或>或或或的{{1}}和个字符或<th>等使用java </th>方法而不替换replaceAll(<regex>,"");代码的<和>个字符。

示例：

输入：  输出应为：abc 

输入：babc /b 输出应为：xyabcd 

输入：xyiabcd /i 输出应为：<th>ab </th>wvx

.......等等。

请帮我解决这个问题。

Answer 1

</?([a-z]+)>应该这样做。如果斜杠在字母之后不匹配。

Answer 2

您可以尝试使用String#replaceAll：

String input = "<b>abc<br/></b>";
input = input.replaceAll("</?(?!br)([^>]+)>", "$1");
System.out.println(input);

babc<br/>b

模式</?(?!br)[^>]+)>将匹配br以外的任何打开或关闭HTML标记。它将仅使用标记的文本名称替换该标记。

请注意，使用正则表达式解析HTML通常不是一个好主意。如果您的示例字符串中只有单级HTML，那么这可能适用于您的情况。

Demo