使用Matcher.appendReplacement()时,区域似乎被忽略

时间:2015-08-25 14:03:09

标签: java

我正在使用jdk1.7.0_79尝试用Matcher替换某些文字。 我大量使用Matcher.appendReplacement()Matcher.appendTail(),当我没有设置任何区域时,一切都很好。

如果我在Matcher.region(startPosition, endPosition)循环之前使用Matcher.find(),则第一个Matcher.appendReplacement()方法会将输入文本开头的所有输入附加到匹配的元素,而我希望它从区域开始位置开始。

我查看了Matcher源代码,实现似乎确认了这种行为:lastAppendPositionMatcher.region()中重置为0并用作Matcher.appendReplacement()中的起点。 Matcher.appendTail()也是如此。

有人可以确认这是预期的行为吗?我应该在使用地区时自己处理事情吗?为什么会这样,因为将lastAppendPosition设置为Matcher.region()中的区域起始位置会很简单?

我没有显示我的代码,因为它很复杂。如果需要,我可以准备一个简单的测试用例。

编辑:测试添加

package test;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class TestMatcher {

    public static void main(String[] args) {
        String inputText = "Lorem ipsum dolor sit amet, consectetur adipiscing elit. Maecenas eu blandit sapien.";
        int regionStartPos = 6;
        int regionEndPos = inputText.length()-7;
        Pattern pattern = Pattern.compile("elit");
        Matcher matcher = pattern.matcher(inputText);
        StringBuffer result = new StringBuffer();
        matcher.region(regionStartPos, regionEndPos);
        System.out.println("Region start = " + matcher.regionStart());
        System.out.println("Region end = " + matcher.regionEnd());
        System.out.println("Skipped beginning = " + inputText.substring(0, regionStartPos));
        System.out.println("Skipped ending = " + inputText.substring(regionEndPos, inputText.length()));
        matcher.find();
        matcher.appendReplacement(result, "ELIT");
        matcher.appendTail(result);
        System.out.println(result);
    }

}

以上代码给出了以下结果。如您所见,最终输出包含区域外的部分:

Region start = 6
Region end = 77
Skipped beginning = Lorem 
Skipped ending = sapien.
Lorem ipsum dolor sit amet, consectetur adipiscing ELIT. Maecenas eu blandit sapien.

3 个答案:

答案 0 :(得分:1)

可能有一些用例,其中appendReplacement和appendTail在实现时很有用,即忽略区域,但在我的情况下它们不是。如果实现可以允许我通过一个简单的标志选择其行为,我会非常高兴。 缺乏这一点,这就是我想出的那些需要地区受到尊重的人的解决方法。

  1. 在定义区域之后,调用fixRegion(),如果需要,将更新lastAppendPosition;
  2. 而不是调用Matcher.appendTail(),使用新的appendTail()方法
  3. 以下是更新的测试

    package test;
    
    import java.lang.reflect.Field;
    import java.util.regex.Matcher;
    import java.util.regex.Pattern;
    
    public class TestMatcher {
    
        public static void main(String[] args) throws Exception {
            String inputText = "Lorem ipsum dolor sit amet, consectetur adipiscing elit. Maecenas eu blandit sapien.";
            int regionStartPos = 6;
            int regionEndPos = inputText.length()-7;
            Pattern pattern = Pattern.compile("elit");
            Matcher matcher = pattern.matcher(inputText);
            StringBuffer result = new StringBuffer();
            matcher.region(regionStartPos, regionEndPos);
            fixRegion(matcher); // ADDED
            System.out.println("Region start = " + matcher.regionStart());
            System.out.println("Region end = " + matcher.regionEnd());
            System.out.println("Skipped beginning = " + inputText.substring(0, regionStartPos));
            System.out.println("Skipped ending = " + inputText.substring(regionEndPos, inputText.length()));
            matcher.find();
            matcher.appendReplacement(result, "ELIT");
    //      matcher.appendTail(result);
            appendTail(matcher, inputText, result); // ADDED
            System.out.println(result);
        }
    
        private static void fixRegion(Matcher m) throws Exception {
            Field lastAppendPositionField = Matcher.class.getDeclaredField("lastAppendPosition");
            lastAppendPositionField.setAccessible(true);
            int lastAppendPosition = (int) lastAppendPositionField.get(m);
            if (lastAppendPosition==0) {
                lastAppendPositionField.set(m, m.regionStart());
            }
        }
    
        private static void appendTail(Matcher m, String input, StringBuffer result) throws Exception {
            Field lastAppendPositionField = Matcher.class.getDeclaredField("lastAppendPosition");
            lastAppendPositionField.setAccessible(true);
            int lastAppendPosition = (int) lastAppendPositionField.get(m);
            if (lastAppendPosition<m.regionStart()) {
                lastAppendPosition = m.regionStart();
            }
            result.append(input.substring(lastAppendPosition, m.regionEnd()));
        }
    
    
    }
    

    输出:

    Region start = 6
    Region end = 77
    Skipped beginning = Lorem 
    Skipped ending = sapien.
    ipsum dolor sit amet, consectetur adipiscing ELIT. Maecenas eu blandit 
    

答案 1 :(得分:1)

您发现,Matcher.region(int start, int end)正在将Matcher.lastAppendedPosition重置为0。

您问这是否是“预期行为”。 JavaDoc中未记录此行为,因此基于以下原因,我认为这不是 预期的行为(即错误):

JavaDoc特别指出,唯一会影响“附加位置”的方法是:

  1. Matcher.appendReplacement(StringBuffer sb, String replacement)
  2. Matcher.appendTail(StringBuffer sb)
  3. Matcher.reset()
  4. Matcher.reset(CharSequence input)

JavaDoc还指出Matcher.usePattern(Pattern newPattern)不会影响“附加位置”。

因此,似乎Matcher.region(int start, int end)会重置“附加位置”而不在JavaDoc中没有提及它。


作为一种解决方法,我使用了@xtian共享的fixRegion()方法的修改版本。

private static void setRegionAndMaintainAppendPosition(Matcher m, int start, int end) throws Exception
{
  java.lang.reflect.Field lastAppendPositionField = Matcher.class.getDeclaredField("lastAppendPosition");
  lastAppendPositionField.setAccessible(true);
  int lastAppendPosition = (int) lastAppendPositionField.get(m);
  m.region(start, end);
  lastAppendPositionField.set(m,lastAppendPosition);
}

答案 2 :(得分:0)

  

该区域是输入序列的一部分,将被搜索以找到匹配项。

searched to find a match。没有关于修改结果中输入的内容。

<强> UPD。

如果您认为提供的测试用例应该生成ipsum dolor sit amet, consectetur adipiscing ELIT. Maecenas eu blandit,那么为什么不只是

int regionStartPos = 6;
int regionEndPos = inputText.length()-7;
Pattern pattern = Pattern.compile("elit");
Matcher matcher = pattern.matcher(inputText.substr(regionStartPos, regionEndPos - regionStartPos));