使用RegEx或类似方法解析格式化字符串

时间:2013-05-03 13:39:01

标签: c# regex parsing text-parsing

我有一个应用程序,它将TCP消息发送到服务器,并返回一个。

它返回的信息采用以下格式:

  

0,“120”1,“数据字段1”2,“2401”3,“数据字段3”1403-1,“多个   出现1“1403-2,”多次出现2“99,”“

所以基本上它是一组连接在一起的字段 每个字段都有一个标记,一个逗号和一个值 - 按此顺序 标签是数字,值是引号,逗号分隔它们 0, “120”
0是标签,120是值。

完整的消息始终以0字段开头,以99,“”字段结束。

为了使事情复杂化,某些标签有破折号,因为它们被分成多个值。
数字的顺序并不重要。

(作为参考,这是“联邦快递标记交易”消息)。

所以我正在寻找一种合适的方式来验证我们有一个“完整”的消息(即有0和99个字段) - 因为它是来自TCP消息,我想我必须考虑到没有收到满消息呢 然后将其拆分以获得我需要的所有值。

我提出的最好的解决方法是解决一些糟糕的正则表达式以及之后的一些清理工作。 它的核心是:(\ d?\ d?\ d?\ d? - ?\ d?\ d,“)将其拆分

string s = @"(\d?\d?\d?\d?-?\d?\d,"")";
string[] strArray = Regex.Split(receivedData, r);

Assert.AreEqual(14, strArray.Length, "Array length should be 14", since we have 7 fields.);

Dictionary<string, string> fields = new Dictionary<string, string>();

//Now put it into a dictionary which should be easier to work with than an array
for (int i = 0; i <= strArray.Length-2; i+=2)
{
    fields.Add(strArray[i].Trim('"').Trim(','), strArray[i + 1].Trim('"'));
}

哪个不起作用。
它留下了很多引号和逗号,并且似乎没有特别好的形式...... 我对Regex并不擅长,所以我不能把我需要做的事情放在一起。

我甚至不知道这是不是最好的方式。

任何帮助表示感谢。

2 个答案:

答案 0 :(得分:1)

试试这个表达

\d*(-\d*)?,"[^"]*"

比赛数:7

0,"120"
1,"Data Field 1"
2,"2401"
3,"Data Field 3"
1403-1,"multiple occurence 1"
1403-2,"multiple occurence 2"
99,""

答案 1 :(得分:1)

我建议您使用Regex.Matches而不是Regex.Split。这样,您可以迭代所有匹配,并使用捕获组直接获取您想要的数据,同时仍然保持结构。我在下面的示例中提供了一个适用于此的正则表达式:

        MatchCollection matchlist = Regex.Matches(receivedData, @"(?<tag>\d+(?:-\d+)?),""(?<data>.*?)""");
        foreach (Match match in matchlist)
        {
            string tag = match.Groups["tag"].Value;
            string data = match.Groups["data"].Value;
        }