.NET对象列表中的正则表达式样式模式匹配

时间:2016-05-03 14:52:58

标签: c# .net regex

我有一组具有各种属性的.NET对象。让我们说它是遗传密码中的一系列染色体 - 尽管对象数据比这更复杂。我想在列表中搜索预定义的对象序列。我可以将对象定义为有限数量的独特感兴趣类型。 R,B,D和大量列表中我想找到某些对象序列:

大规模简化版本将是:

public class Chromosome {
    public ChromosomeType CromosomeType { 
       get {
        // Some logic that works out and returns the correct chromosome type

       }
    }
}

public enum ChromosomeType {
  R, B, D
}

所以给出了这些类型的大量集合。我想匹配某些序列

e.g。 "R+B{3}D+"

因此,在上面的“正则表达式”中,以下子序列将在列表中匹配: RRRBBBDD

我需要能够从很长的对象列表中返回所有匹配项。

显然正则表达式是完美的,但我实际上没有字符串,我有对象的集合。

搜索预定义序列的对象集合的最佳方法是什么?

更新

科林的解决方案是我最终选择的解决方案。它很棒。我更新了它以便能够处理多个匹配,并使用数组以便尽可能快地

这是最终的解决方案:

    public static class ChromosomesExtensions
    {
        public static IEnumerable<Chromosome[]> FindBySequence(this Chromosome[] chromosomes, string patternRegex)
        {
            var sequenceString
                = String.Join(
                    String.Empty, //no separator
                    (
                        from c in chromosomes
                        select c.CromosomeType.ToString()
                    )
                );
            MatchCollection matches = Regex.Matches(sequenceString, patternRegex);

            foreach (Match match in matches)
            {
                Chromosome[] subset = new Chromosome[match.Value.Length];

                var j = 0;
                for (var i = match.Index; i < match.Index + match.Length; i++)
                {
                    subset[j++] = chromosomes[i];
                }
                yield return subset;
            }
        }
    }

    [TestFixture]
    public class TestClass
    {
        [Test]
        public void TestMethod()
        {
            var chromosomes =
                new[]
                {
                    new Chromosome(){ CromosomeType = ChromosomeType.D, Id = 1},
                    new Chromosome(){ CromosomeType = ChromosomeType.R, Id = 2 },
                    new Chromosome(){ CromosomeType = ChromosomeType.R, Id = 3 },
                    new Chromosome(){ CromosomeType = ChromosomeType.B, Id = 4 },
                    new Chromosome(){ CromosomeType = ChromosomeType.B, Id = 5 },
                    new Chromosome(){ CromosomeType = ChromosomeType.B, Id = 6 },
                    new Chromosome(){ CromosomeType = ChromosomeType.D, Id = 7 },
                    new Chromosome(){ CromosomeType = ChromosomeType.D, Id = 8 },
                    new Chromosome(){ CromosomeType = ChromosomeType.B, Id = 9 },
                    new Chromosome(){ CromosomeType = ChromosomeType.R, Id = 10 },
                    new Chromosome(){ CromosomeType = ChromosomeType.R, Id = 11 },
                    new Chromosome(){ CromosomeType = ChromosomeType.B, Id = 12 },
                    new Chromosome(){ CromosomeType = ChromosomeType.B, Id = 13 },
                    new Chromosome(){ CromosomeType = ChromosomeType.B, Id = 14 },
                    new Chromosome(){ CromosomeType = ChromosomeType.D, Id = 15 },
                    new Chromosome(){ CromosomeType = ChromosomeType.D, Id = 16 },
                    new Chromosome(){ CromosomeType = ChromosomeType.R, Id = 17 },
                    new Chromosome(){ CromosomeType = ChromosomeType.R, Id = 18 },
                    new Chromosome(){ CromosomeType = ChromosomeType.B, Id = 19 },
                    new Chromosome(){ CromosomeType = ChromosomeType.B, Id = 20 },
                    new Chromosome(){ CromosomeType = ChromosomeType.B, Id = 21 },
                    new Chromosome(){ CromosomeType = ChromosomeType.D, Id = 22 },
                    new Chromosome(){ CromosomeType = ChromosomeType.D, Id = 23 },
                };

            var matchIndex = 0;
            foreach (Chromosome[] match in chromosomes.FindBySequence("R+B{3}D+"))
            {
                Console.WriteLine($"Match {++matchIndex}");
                var result = new String(match.SelectMany(x => string.Join("", $"id: {x.Id} Type: {x.CromosomeType.ToString()}\n")).ToArray());
                Console.WriteLine(result);
            }

        }
    }

输出:

    Match 1
id: 2 Type: R
id: 3 Type: R
id: 4 Type: B
id: 5 Type: B
id: 6 Type: B
id: 7 Type: D
id: 8 Type: D

Match 2
id: 10 Type: R
id: 11 Type: R
id: 12 Type: B
id: 13 Type: B
id: 14 Type: B
id: 15 Type: D
id: 16 Type: D

Match 3
id: 17 Type: R
id: 18 Type: R
id: 19 Type: B
id: 20 Type: B
id: 21 Type: B
id: 22 Type: D
id: 23 Type: D

3 个答案:

答案 0 :(得分:2)

使用扩展方法的简单,干净的方式(实际上支持通过Regex进行搜索)。

类:

public static class ChromosomesExtensions
{
    public static IEnumerable<Chromosome> FindBySequence(this IEnumerable<Chromosome> chromosomes, string patternRegex)
    {
        var sequenceString
            = String.Join(
                String.Empty, //no separator
                (
                    from c in chromosomes
                    select c.CromosomeType.ToString()
                )
            );
        var match = Regex.Match(sequenceString, patternRegex);
        //returns empty if no match is found
        return chromosomes.ToList().GetRange(sequenceString.IndexOf(match.Value), match.Value.Length);
    }
}

用法:

var chromosomes =
    new[]
    {
        new Chromosome(){ CromosomeType = ChromosomeType.D },
        new Chromosome(){ CromosomeType = ChromosomeType.R },
        new Chromosome(){ CromosomeType = ChromosomeType.R },
        new Chromosome(){ CromosomeType = ChromosomeType.B },
        new Chromosome(){ CromosomeType = ChromosomeType.B },
        new Chromosome(){ CromosomeType = ChromosomeType.B },
        new Chromosome(){ CromosomeType = ChromosomeType.D },
        new Chromosome(){ CromosomeType = ChromosomeType.D },
        new Chromosome(){ CromosomeType = ChromosomeType.B },
    };

var queryResult = chromosomes.FindBySequence("R+B{3}D+");

答案 1 :(得分:1)

Colin's answer似乎让你接近你想要的地方。我有两点想法补充:

  1. 你真的需要拉入“RegEx”才能完成任务吗?您正在为量词使用RegEx库的子集,但这是以向复杂工具添加依赖性为代价的。如果你只是制作一个简单的(尽管不太灵活)语法,你可能会有一个更便携的应用程序。

  2. 我会考虑避免private $certificate = 'file path to production ceritficate'; ,并简单地为你的对象提供一个const字符串属性,你可以使用该属性来退出RegEx。如果您正在处理“大量”数据,似乎在任何地方调用ToString()会给您带来相当大的开销。

答案 2 :(得分:1)

也许为时已晚,但我必须回答。我实现了ORegex引擎(不是你的问题,而是非常接近你的问题)。 它的使用非常类似于你使用正则表达式,并将完美解决你在仲裁集合上的模式匹配问题。它比上面的方法快得多,你甚至可以传递一些非常复杂的条件函数(例如,检查一些对象属性)。它完全免费,可通过Nuget获得。

有素数序列的示例: How to search patterns in arbitrary sequences?

包含更多示例的项目页面: https://github.com/eocron/ORegex