为什么我的匹配器失败了?

时间:2009-08-24 15:41:18

标签: java regex

我将一个字符串传递给我的歌曲解析器方法,它失败了,我无法弄清楚原因。每件事都返回null或0。

我的解析器方法是

 public static Song parseSong(String songString){
  Map<String, String> songMap = new HashMap<String, String>();
  Pattern pattern = Pattern.compile(".*<key>(.+)</key><(.+)>(.+)</.+>.*\n");
  Scanner scanner = new Scanner(songString);
  if(scanner.hasNext(pattern))
  {
     String line = scanner.next(pattern);
     Matcher matcher = pattern.matcher(line);
     MatchResult result = matcher.toMatchResult();
     songMap.put(result.group(1), result.group(3));
  }
  int count = 0, rating = 0;
  try{
     count = Integer.parseInt(songMap.get("Play Count"));
  }
  catch(Exception e)
  {
     //bury this for now will handle when rest is working
  }
  try{
     rating = Integer.parseInt(songMap.get("Rating"));
  }
  catch(Exception e)
  {
     //bury this for now will handle when rest is working
  }
  return new Song(songMap.get("Name"), songMap.get("Artist"), songMap.get("Album"),
        songMap.get("Genre"), count, rating, songMap.get("Location"));

}

      String songString = "<key>Track ID</key><integer>160</integer>\n"+
     "<key>Name</key><string>Ashley</string>\n"+
    " <key>Artist</key><string>Escape the Fate</string>\n"+
    " <key>Composer</key><string>Luca Gusella</string>\n"+
    " <key>Album</key><string>This War Is Ours</string>\n"+
  "   <key>Genre</key><string>Metal</string>\n"+
     "<key>Kind</key><string>AAC audio file</string>\n"+
  "  <key>Size</key><integer>7968219</integer>\n"+
   "  <key>Total Time</key><integer>246503</integer>\n"+
  "   <key>Track Number</key><integer>17</integer>\n"+
   "  <key>Year</key><integer>2005</integer>\n"+
   "  <key>Date Modified</key><date>2009-07-27T01:17:29Z</date>\n"+
    " <key>Date Added</key><date>2009-07-27T01:17:00Z</date>\n"+
    "<key>Play Count</key><integer>150</integer>\n"+
    " <key>Bit Rate</key><integer>256</integer>\n"+
    " <key>Sample Rate</key><integer>44100</integer>\n"+
    " <key>Comments</key><string>\"Amanda\" performed by Aisha Duo from the CD Quiet Songs, courtesy of Obliq Sound.  Written by Luca Gusella, published by Editions ObliqMusic (GEMA).  All Rights Reserved.  Used by Permission. </string>\n"+
    " <key>Skip Count</key><integer>1</integer>\n"+
    " <key>Skip Date</key><date>2009-07-27T01:46:32Z</date>\n"+
    " <key>Artwork Count</key><integer>1</integer>\n"+
    " <key>Persistent ID</key><string>A4D6F35FE9F41B58</string>\n"+
    " <key>Track Type</key><string>File</string>\n"+
    " <key>Location</key><string>file://localhost/C:/Documents%20and%20Settings/MB24244/Desktop/music/07%20Knees.m4a</string>\n"+
     "<key>File Folder Count</key><integer>4</integer>\n"+
     "afgjdhfshsgsughghanoise\n"+
     "<key>Library Folder Count</key><integer>1</integer>\n"+
     "<key>Rating</key><integer>100</integer>";

任何人都可以帮助解释我的方法有什么问题以及为什么小组不工作(这似乎是问题)

5 个答案:

答案 0 :(得分:7)

为什么不使用 XML解析器解析XML

虽然查看XML示例但它不是很好,因为它实际上是对map进行建模而不是对<song>进行建模

查看正则表达式为什么要查找结束\n的行。您似乎依次匹配每一行,我不相信这些将包含新行字符。

然而,这种不使用扫描仪的方法有效。请注意,我已更改正则表达式以删除行结尾。

    Map<String, String> songMap = new HashMap<String, String>();

    Pattern pattern = Pattern
            .compile(".*<key>(.+)</key><(.+)>(.+)</.+>.*");

    String[] lines = songString.split("\n");

    for (String line : lines) {
        Matcher matcher = pattern.matcher(line);
        if (matcher.matches()) {
            songMap.put(matcher.group(1), matcher.group(3));
        }
    }

您也可以使用扫描仪。

答案 1 :(得分:1)

第二次投票使XML成为有效的XML(单顶级节点),然后使用XML解析器。

但是我会怀疑\ n最后,不确定Java的正则表达式库有多喜欢它?

答案 2 :(得分:1)

if(scanner.hasNext(pattern))
{
   String line = scanner.next(pattern);
   Matcher matcher = pattern.matcher(line);
   matcher.toMatchResult();
   songMap.put(result.group(1), result.group(3));
}

使用pattern.matcher(line)创建的匹配器是一个全新的对象,它对您刚刚在扫描仪上找到的匹配项一无所知。你想要的是这个:

MatchResult result = scanner.match();

正则表达式也需要一些工作。如果每个记录都出现在自己的行中,则无需在任何一端使用".*"填充它,并且您不需要匹配换行符。另外,我建议您使用".+?"而不是".+"。因此,read this

答案 3 :(得分:0)

除非您已经知道要解析的文件的规则,否则不要尝试编写解析器。

您编写的正则表达式并未遵循XML文件的许多规则。

如果这是你第一次写一个正则表达式,你应该尝试学习一些更容易解析的东西。甚至可能是您自己创建的简单文件格式。

答案 4 :(得分:0)

+1使用。+?

除此之外,我建议不要在这种情况下使用模式,因为你似乎有一个非常容易解析的文件。我会: - 逐行拆分文件 - 使用简单的字符串方法来获取内容(似乎XML中只有3个不同的标记)

如果文件格式会发生变化并变得更加复杂,我会使用真正的XMLParser并遍历XML树以获得所需内容:)