假设我有一个正则表达式
let regexString = "\\s{1,3}(---+)\\s*"
let regex = try? NSRegularExpression(pattern: regexString)
和一个字符串
let string = "Space --- the final frontier --- these are the voyages..."
,让我们进一步假设该字符串确实很长,并且在省略号(...
)之后延续了数千个字符。
现在,我想找到正则表达式regex
的第一个匹配项,但出于效率原因,我想停止搜索某个索引。
index: 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
string: S p a c e - - - t h e f i n a l f r o n t i e r
range: + + + + + + + + + + + + + + + ⬆︎ - - - - - - - - - - - -
max
这意味着我只在字符串中搜索正则表达式匹配项 开始在索引15 之前。
上述行为不同于仅搜索字符串的子范围。原因如下:
以下示例应在[5–9]范围内产生匹配项,因为该匹配在最大索引(= 7)之前开始。
index: 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
string: S p a c e - - - t h e f i n a l f r o n t i e r
range: + + + + + + + ⬆︎ - - - - - - - - - - - - - - - - - - - -
max
如果仅搜索最大索引(= 7)的子字符串,则正则表达式将无法匹配,因为匹配的一部分将被截断。
index: 0 1 2 3 4 5 6 7
string: S p a c e - -
range: + + + + + + + ⬆︎
max
我该如何实现?
答案 0 :(得分:1)
由于您正在使用捕获组,所以我假设这是您要查找的字符串。您可以将表达式更改为:^.{0,6}\\s{1,3}(---+)\\s*
。我添加了以下内容:
更改这样的表达式将与您要查找的内容匹配,如果原始表达式的起始位置最多为 6 ,则为原始表达式,这就是您的最大值。区别在于整个匹配项包含这些可选字符,但第一个捕获组将仅包含您要查找的破折号。
我在操场上使用以下代码测试新表达式:
let regexString = "^.{0,6}\\s{1,3}(---+)\\s*"
let regex = try? NSRegularExpression(pattern: regexString)
let string = "Space --- the final frontier --- these are the voyages of the
starship Enterprise. Its continuing mission: to explore strange
new worlds. To seek out new life and new civilizations. To boldly
go where no one has gone before!"
let matches = regex?.matches(in: string, options: [], range: NSRange(location: 0, length: string.count))
if let firstMatch = matches?.first {
print("Whole regex match starts at index: \(firstMatch.range.lowerBound)")
print("Whole match: \(String(string[Range(firstMatch.range, in: string)!]))")
print("Capture group start at index: \(firstMatch.range(at: 1).lowerBound)")
print("Capture group string: \(String(string[Range(firstMatch.range(at: 1), in: string)!]))")
} else {
print("No matches")
}
运行上面的代码将显示以下结果:
整个正则表达式匹配均始于索引:0
全场比赛:空格---
捕获组始于索引:6
捕获组字符串:---
如果string
的更改如下:let string = "The space --- the final frontier --- these are the ...
,则结果为:
没有匹配项
因为\\s{1,3}
从索引 10 开始。
希望这对您有用。