如何搜索在某个字符串的索引之前开始的正则表达式匹配?

时间:2019-02-25 02:09:54

标签: swift regex string nsregularexpression

假设我有一个正则表达式

let regexString = "\\s{1,3}(---+)\\s*"
let regex = try? NSRegularExpression(pattern: regexString)

和一个字符串

let string = "Space --- the final frontier --- these are the voyages..."

,让我们进一步假设该字符串确实很长,并且在省略号(...)之后延续了数千个字符。

现在,我想找到正则表达式regex的第一个匹配项,但出于效率原因,我想停止搜索某个索引

示例:

index:  0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
string: S  p  a  c  e     -  -  -     t  h  e     f  i  n  a  l     f  r  o  n  t  i  e  r
range:  +  +  +  +  +  +  +  +  +  +  +  +  +  +  +  ⬆︎ -  -  -  -  -  -  -  -  -  -  -  -
                                                     max 

这意味着我只在字符串中搜索正则表达式匹配项 开始在索引15 之前。


上述行为不同于仅搜索字符串的子范围。原因如下:

✅应该匹配:

以下示例应在[5–9]范围内产生匹配项,因为该匹配在最大索引(= 7)之前开始。

index:  0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
string: S  p  a  c  e     -  -  -     t  h  e     f  i  n  a  l     f  r  o  n  t  i  e  r
range:  +  +  +  +  +  +  +  ⬆︎ -  -  -  -  -  -  -  -  -  -  -  -  -  -  -  -  -  -  -  -
                             max 

❎应该,但不匹配:

如果仅搜索最大索引(= 7)的子字符串,则正则表达式将无法匹配,因为匹配的一部分将被截断。

index:  0  1  2  3  4  5  6  7  
string: S  p  a  c  e     -  -  
range:  +  +  +  +  +  +  +  ⬆︎ 
                             max 

我该如何实现?

1 个答案:

答案 0 :(得分:1)

由于您正在使用捕获组,所以我假设这是您要查找的字符串。您可以将表达式更改为:^.{0,6}\\s{1,3}(---+)\\s*。我添加了以下内容:

  • ^ 字符串的开头。
  • 。{0,6} ,以从零到六个字符匹配。

更改这样的表达式将与您要查找的内容匹配,如果原始表达式的起始位置最多为 6 ,则为原始表达式,这就是您的最大值。区别在于整个匹配项包含这些可选字符,但第一个捕获组将仅包含您要查找的破折号。

我在操场上使用以下代码测试新表达式:

let regexString = "^.{0,6}\\s{1,3}(---+)\\s*"
let regex = try? NSRegularExpression(pattern: regexString)
let string = "Space --- the final frontier --- these are the voyages of the     
             starship Enterprise. Its continuing mission: to explore strange 
             new worlds. To seek out new life and new civilizations. To boldly   
             go where no one has gone before!"

let matches = regex?.matches(in: string, options: [], range: NSRange(location: 0, length: string.count))
if let firstMatch = matches?.first {
    print("Whole regex match starts at index: \(firstMatch.range.lowerBound)")
    print("Whole match: \(String(string[Range(firstMatch.range, in: string)!]))")
    print("Capture group start at index: \(firstMatch.range(at: 1).lowerBound)")
    print("Capture group string: \(String(string[Range(firstMatch.range(at: 1), in: string)!]))")
} else {
    print("No matches")
}

运行上面的代码将显示以下结果:

  

整个正则表达式匹配均始于索引:0

     

全场比赛:空格---

     

捕获组始于索引:6

     

捕获组字符串:---

如果string的更改如下:let string = "The space --- the final frontier --- these are the ...,则结果为:

  

没有匹配项

因为\\s{1,3}从索引 10 开始。

希望这对您有用。