如何编写正则表达式以逗号分割字符串,但有一些例外?

时间:2009-11-16 01:03:52

标签: c# .net regex split

过去几天我一直在学习正则表达式,我偶然发现了这个。我想用逗号分隔一个字符串,但有例外。这是我想要验证的字符串:

rp { av 100, re 3, 52 }

这是花括号内的基本逗号分隔值。获得价值,我能做到。但是在每个值的内部,可能还有另一个

rp { values, values values }

我不想让它抓住。这可以是递归的。


要评估的字符串:

rp { av 100, re 3, rp { value 1, value 2, value 3 }, 52 }

期望的比赛:

av 100
re 3
rp { value 1, value 2, value 3 }
52

1 个答案:

答案 0 :(得分:2)

我不清楚这个例子是否表示这些JSON-esque组的潜在无限嵌套,或者只是一个嵌套级别。

如果只能进行一级嵌套,那么直截了当的Regex就可以了:

(请注意我没有用IDE写这个;这个概念应该是正确的,但目前无法保证语法错误。道歉)

string pattern = @"(?<key>)[A-Z]+)\s(?<value>({.+?}|[^{},]+))";

List<string[]> results = new List<string[]>(); //probably not best data structure

MatchCollection matches = Regex.Matches(input, pattern, RegexOptions.SingleLine | RegexOptions.IgnoreCase);
foreach(Match match in matches)
{
    if(match.Success)
    {
        results.Add(new string[] {
            match.Groups["key"].Value,
            match.Groups["value"].Value
        });
    }
}

如果它们可以嵌套多个级别,您可能希望以递归方式处理此问题。这将需要将值匹配拆分为嵌套值和简单值:

string pattern = @"(?<key>)[A-Z]+)\s({(?<nested>.+?)}|(?<simple>[^{},]+))";

对于嵌套有值的每个匹配,请对该值执行相同的例程:

void Deserialize(string input, List<string[]> values)
{
    MatchCollection matches = Regex.Matches(input, pattern, RegexOptions.SingleLine | RegexOptions.IgnoreCase);
    foreach(Match match in matches)
    {
        if(match.Success)
        {
            if(match.Groups["nested"].Success && !string.IsNullOrEmpty(match.Groups["nested"].Value))
            {
                Deserialize(match.Groups["nested"].Value, values);
            }
            else
            {
                values.Add(new string[] {
                    match.Groups["key"].Value,
                    match.Groups["simple"].Value
                });
            }
        }
    }
}