java悬空元字符' +'

时间:2017-05-09 16:21:06

标签: java regex

我有文字:

String str = "<HTML> <HEAD>\n" +
            "<TITLE>Управление разрывом строк </Title>\n" +
            "</HEAD>\n" +
            "<BODY>\n" +
            "<marquee>Это моя учебная страница.</marquee>\n" +
            "<H2>Меня зовут <kbd>Ольга. </kbd></H2>\n" +
            "<H3 align=\"center\">Я живу во <em>Владивостоке</em>.</H3>\n" +
            "<H4 align=\"right\">Моя маленькая родина - <font face=\"Academy\" color=\"Red\">Сахалин</font>. </H4>\n" +
            "<H5 align=left>ДВГУ - ВУЗ в котором я работаю.</H5>\n" +
            "<B>Здесь</B>\n" +
            "<I>продемонстрированы</I>\n" +
            "<Blink>различные</Blink>\n" +
            "<U> способы </U>\n" +
            "<KBD>управления </KBD>\n" +
            "<FONT SIZE=5 COLOR=FF80C0>шрифтом:</FONT> его\n" +
            "<FONT SIZE=5 COLOR=FF00FF>цветом</FONT> и\n" +
            "<FONT SIZE=+3 COLOR=FF00FF>размером.</FONT>\n" +
            "</BODY> </HTML>";

我写了找到manches的正则表达式(?<=(=))[+a-zA-Z0-9]+(?=(>| ))

  1. 5
  2. FF80C0
  3. 5
  4. FF00FF
  5. 3
  6. FF00FF
  7. 但是java抛出异常

    Exception in thread "main" java.util.regex.PatternSyntaxException: Dangling meta character '+' near index 0
    +3
    ^
    at java.util.regex.Pattern.error(Pattern.java:1955)
    at java.util.regex.Pattern.sequence(Pattern.java:2123)
    ...
    

    确定。我尝试使用shield +((?<=(=))[\\+a-zA-Z0-9]+(?=(>| ))

    但这没有用(是同样的错误)。为什么呢?

    代码:

    Matcher matcher = Pattern.compile("(?<=(=))[+a-zA-Z0-9]+(?=(>| ))").matcher(str);
        while (matcher.find()) {
            str= str.replaceAll(matcher.group(),'"' + matcher.group() + '"');
        }
    

2 个答案:

答案 0 :(得分:1)

您的错误与显示的正则表达式无关。

问题是因为您使用匹配的结果值作为replaceAll()的参数,而这些参数也是正则表达式。

由于你不希望它们被解释为正则表达式,你需要转义它们,或者更确切地“引用”它们,如下所示:

str = str.replaceAll(Pattern.quote(matcher.group()),
                     Matcher.quoteReplacement('"' + matcher.group() + '"'));

<强>更新

但是,如果您只想在匹配的字符串周围放置双引号,为什么不直接使用replaceAll()?像这样:

    str = str.replaceAll("(?<==)([+a-zA-Z0-9]+)(?=[> ])", "\"$1\"");

答案 1 :(得分:0)

您的问题不是来自您的模式,而是来自

replaceAll(...)

ReplaceAll在输入中使用正则表达式。

您的输入来自您的str,在某些时候它是“+3”,其中包含悬空+ ...