我是正则表达式受损,所以我为此道歉,并提前感谢任何可以帮助我的人。
我的文字如下:
real text that i want to keep i e 2 2 1 i h i i i E h i L h R 9 more real text
i e 1 i tr L h R 1 i L ? i j 1 more real text that i want to keep d i j 0 etc...
您可以看到出现的“垃圾”文本部分 - 这些是我想要删除的部分。我不一定要100%准确,但我想要一个可以摆脱大部分这些部分的正则表达式。我认为垃圾文本是连续四次或多次出现一个或两个字符的任何部分,后跟一个空格。
如标签中所述,我正在使用c#。再次感谢。
答案 0 :(得分:3)
这样的东西?
\b(.{1,2}\s){4,}
如果您知道允许使用哪些字符,您显然可以用fullstop / period代替更精确的匹配。
答案 1 :(得分:2)
另一种正则表达式解决方案:(\s+(\S{1,2}(?=\s))){2,}