Question

我有Java类必须在线获取URL的内容（返回XML），并在其上应用正则表达式（行为由第三方文件定义，所以我不能使用DOM或SAX来解析响应）。这是代码：

    import java.io.InputStream;
    import java.net.HttpURLConnection;
    import java.net.URL;
    import java.util.regex.Matcher;
    import java.util.regex.Pattern;


    public class RegExpTest {
        public static void main(String[] args) {
            try {
                StringBuffer buffer = new StringBuffer();
                URL url = new URL("http://api.themoviedb.org/2.1/Movie.search/en/xml/57983e31fb435df4df77afb854740ea9/Inglourious+Bastards");
                HttpURLConnection conn = (HttpURLConnection)url.openConnection();

                conn.connect();
                InputStream input = conn.getInputStream();

                for(int c = input.read(); c != -1; c = input.read())
                    buffer.append((char)c);

                Pattern pattern = Pattern.compile("<movie>.*?<name>([^<]*)</name>.*?<id>([^<]*)</id>.*?</movie>", Pattern.DOTALL);
                Matcher matcher = pattern.matcher(buffer);
                for(int i = 1; i < (matcher.groupCount() + 1); i++) {
                    matcher.find();
                    String toReplace = matcher.group(i);
                    System.out.println(toReplace);
                }
            }
            catch (Exception e) {
                e.printStackTrace();
            }
        }
}

它的输出是针对此样本“Inglourious Basterds”然后是“22311”，这是第一个电影标记中名称标记的内容，以及第二个中id标记的内容电影标签。但是，惰性运算符应该保证它只是第一个电影标记中的项目被检索。

此外，python中的以下代码基本上完全相同，以预期的方式工作。

import re
import urllib

url = urllib.urlopen("http://api.themoviedb.org/2.1/Movie.search/en/xml/"
    "57983e31fb435df4df77afb854740ea9/Inglourious+Bastards")

m = re.search("<movie>.*?<name>([^<]*)</name>.*?<id>([^<]*)</id>.*?</movie>",
        url.read(), re.DOTALL)
print m.group(1), m.group(2)

我的代码有什么问题吗？

由于

Answer 1

正则表达式中有两个捕获组，因此find()被调用两次。您需要在开始查看匹配信息之前致电find()（并检查结果）：

while (matcher.find()) { for(int i = 1; i < (matcher.groupCount() + 1); i++) { String toReplace = matcher.group(i); System.out.println(toReplace); } }

Java正则表达式懒惰运算符不是那么懒惰？

1 个答案: