正则表达式删除由空格分隔的连续1-2个字符集

时间:2012-04-25 13:37:06

标签: c# regex

我是正则表达式受损,所以我为此道歉,并提前感谢任何可以帮助我的人。

我的文字如下:

real text that i want to keep i e 2 2 1 i h i i i E h i L h R 9 more real text
i e 1 i tr L h R 1 i L ? i j 1 more real text that i want to keep d i j 0 etc...

您可以看到出现的“垃圾”文本部分 - 这些是我想要删除的部分。我不一定要100%准确,但我想要一个可以摆脱大部分这些部分的正则表达式。我认为垃圾文本是连续四次或多次出现一个或两个字符的任何部分,后跟一个空格。

如标签中所述,我正在使用c#。再次感谢。

2 个答案:

答案 0 :(得分:3)

这样的东西?

\b(.{1,2}\s){4,}

如果您知道允许使用哪些字符,您显然可以用fullstop / period代替更精确的匹配。

答案 1 :(得分:2)

另一种正则表达式解决方案:(\s+(\S{1,2}(?=\s))){2,}