我有一组具有各种属性的.NET对象。让我们说它是遗传密码中的一系列染色体 - 尽管对象数据比这更复杂。我想在列表中搜索预定义的对象序列。我可以将对象定义为有限数量的独特感兴趣类型。 R,B,D和大量列表中我想找到某些对象序列:
大规模简化版本将是:
public class Chromosome {
public ChromosomeType CromosomeType {
get {
// Some logic that works out and returns the correct chromosome type
}
}
}
public enum ChromosomeType {
R, B, D
}
所以给出了这些类型的大量集合。我想匹配某些序列
e.g。 "R+B{3}D+"
因此,在上面的“正则表达式”中,以下子序列将在列表中匹配: RRRBBBDD
我需要能够从很长的对象列表中返回所有匹配项。
显然正则表达式是完美的,但我实际上没有字符串,我有对象的集合。
搜索预定义序列的对象集合的最佳方法是什么?
更新
科林的解决方案是我最终选择的解决方案。它很棒。我更新了它以便能够处理多个匹配,并使用数组以便尽可能快地这是最终的解决方案:
public static class ChromosomesExtensions
{
public static IEnumerable<Chromosome[]> FindBySequence(this Chromosome[] chromosomes, string patternRegex)
{
var sequenceString
= String.Join(
String.Empty, //no separator
(
from c in chromosomes
select c.CromosomeType.ToString()
)
);
MatchCollection matches = Regex.Matches(sequenceString, patternRegex);
foreach (Match match in matches)
{
Chromosome[] subset = new Chromosome[match.Value.Length];
var j = 0;
for (var i = match.Index; i < match.Index + match.Length; i++)
{
subset[j++] = chromosomes[i];
}
yield return subset;
}
}
}
[TestFixture]
public class TestClass
{
[Test]
public void TestMethod()
{
var chromosomes =
new[]
{
new Chromosome(){ CromosomeType = ChromosomeType.D, Id = 1},
new Chromosome(){ CromosomeType = ChromosomeType.R, Id = 2 },
new Chromosome(){ CromosomeType = ChromosomeType.R, Id = 3 },
new Chromosome(){ CromosomeType = ChromosomeType.B, Id = 4 },
new Chromosome(){ CromosomeType = ChromosomeType.B, Id = 5 },
new Chromosome(){ CromosomeType = ChromosomeType.B, Id = 6 },
new Chromosome(){ CromosomeType = ChromosomeType.D, Id = 7 },
new Chromosome(){ CromosomeType = ChromosomeType.D, Id = 8 },
new Chromosome(){ CromosomeType = ChromosomeType.B, Id = 9 },
new Chromosome(){ CromosomeType = ChromosomeType.R, Id = 10 },
new Chromosome(){ CromosomeType = ChromosomeType.R, Id = 11 },
new Chromosome(){ CromosomeType = ChromosomeType.B, Id = 12 },
new Chromosome(){ CromosomeType = ChromosomeType.B, Id = 13 },
new Chromosome(){ CromosomeType = ChromosomeType.B, Id = 14 },
new Chromosome(){ CromosomeType = ChromosomeType.D, Id = 15 },
new Chromosome(){ CromosomeType = ChromosomeType.D, Id = 16 },
new Chromosome(){ CromosomeType = ChromosomeType.R, Id = 17 },
new Chromosome(){ CromosomeType = ChromosomeType.R, Id = 18 },
new Chromosome(){ CromosomeType = ChromosomeType.B, Id = 19 },
new Chromosome(){ CromosomeType = ChromosomeType.B, Id = 20 },
new Chromosome(){ CromosomeType = ChromosomeType.B, Id = 21 },
new Chromosome(){ CromosomeType = ChromosomeType.D, Id = 22 },
new Chromosome(){ CromosomeType = ChromosomeType.D, Id = 23 },
};
var matchIndex = 0;
foreach (Chromosome[] match in chromosomes.FindBySequence("R+B{3}D+"))
{
Console.WriteLine($"Match {++matchIndex}");
var result = new String(match.SelectMany(x => string.Join("", $"id: {x.Id} Type: {x.CromosomeType.ToString()}\n")).ToArray());
Console.WriteLine(result);
}
}
}
输出:
Match 1
id: 2 Type: R
id: 3 Type: R
id: 4 Type: B
id: 5 Type: B
id: 6 Type: B
id: 7 Type: D
id: 8 Type: D
Match 2
id: 10 Type: R
id: 11 Type: R
id: 12 Type: B
id: 13 Type: B
id: 14 Type: B
id: 15 Type: D
id: 16 Type: D
Match 3
id: 17 Type: R
id: 18 Type: R
id: 19 Type: B
id: 20 Type: B
id: 21 Type: B
id: 22 Type: D
id: 23 Type: D
答案 0 :(得分:2)
使用扩展方法的简单,干净的方式(实际上支持通过Regex进行搜索)。
类:
public static class ChromosomesExtensions
{
public static IEnumerable<Chromosome> FindBySequence(this IEnumerable<Chromosome> chromosomes, string patternRegex)
{
var sequenceString
= String.Join(
String.Empty, //no separator
(
from c in chromosomes
select c.CromosomeType.ToString()
)
);
var match = Regex.Match(sequenceString, patternRegex);
//returns empty if no match is found
return chromosomes.ToList().GetRange(sequenceString.IndexOf(match.Value), match.Value.Length);
}
}
用法:
var chromosomes =
new[]
{
new Chromosome(){ CromosomeType = ChromosomeType.D },
new Chromosome(){ CromosomeType = ChromosomeType.R },
new Chromosome(){ CromosomeType = ChromosomeType.R },
new Chromosome(){ CromosomeType = ChromosomeType.B },
new Chromosome(){ CromosomeType = ChromosomeType.B },
new Chromosome(){ CromosomeType = ChromosomeType.B },
new Chromosome(){ CromosomeType = ChromosomeType.D },
new Chromosome(){ CromosomeType = ChromosomeType.D },
new Chromosome(){ CromosomeType = ChromosomeType.B },
};
var queryResult = chromosomes.FindBySequence("R+B{3}D+");
答案 1 :(得分:1)
Colin's answer似乎让你接近你想要的地方。我有两点想法补充:
你真的需要拉入“RegEx”才能完成任务吗?您正在为量词使用RegEx库的子集,但这是以向复杂工具添加依赖性为代价的。如果你只是制作一个简单的(尽管不太灵活)语法,你可能会有一个更便携的应用程序。
我会考虑避免private $certificate = 'file path to production ceritficate';
,并简单地为你的对象提供一个const字符串属性,你可以使用该属性来退出RegEx。如果您正在处理“大量”数据,似乎在任何地方调用ToString()会给您带来相当大的开销。
答案 2 :(得分:1)
也许为时已晚,但我必须回答。我实现了ORegex引擎(不是你的问题,而是非常接近你的问题)。 它的使用非常类似于你使用正则表达式,并将完美解决你在仲裁集合上的模式匹配问题。它比上面的方法快得多,你甚至可以传递一些非常复杂的条件函数(例如,检查一些对象属性)。它完全免费,可通过Nuget获得。
有素数序列的示例: How to search patterns in arbitrary sequences?
包含更多示例的项目页面: https://github.com/eocron/ORegex