为什么此代码只吐出整个正则表达式匹配而不是捕获组?
输入
@"A long string containing Name:</td><td>A name here</td> amongst other things"
预期输出
A name here
实际输出
Name:</td><td>A name here</td>
代码
NSString *htmlString = @"A long string containing Name:</td><td>A name here</td> amongst other things";
NSRegularExpression *nameExpression = [NSRegularExpression regularExpressionWithPattern:@"Name:</td>.*\">(.*)</td>" options:NSRegularExpressionSearch error:nil];
NSArray *matches = [nameExpression matchesInString:htmlString
options:0
range:NSMakeRange(0, [htmlString length])];
for (NSTextCheckingResult *match in matches) {
NSRange matchRange = [match range];
NSString *matchString = [htmlString substringWithRange:matchRange];
NSLog(@"%@", matchString);
}
从Apple文档中获取的代码。 我知道还有其他库可以做到这一点,但我想坚持使用内置的任务。
答案 0 :(得分:66)
您将使用以下方式访问第一组范围:
for (NSTextCheckingResult *match in matches) {
//NSRange matchRange = [match range];
NSRange matchRange = [match rangeAtIndex:1];
NSString *matchString = [htmlString substringWithRange:matchRange];
NSLog(@"%@", matchString);
}
答案 1 :(得分:10)
不要使用正则表达式或NSScanner解析HTML。走下那条道路就是疯狂。
有人多次询问这个问题。
我挑选的数据就像
<td>Name: A name</td>
和i一样简单 认为它很简单,只需使用正则表达式而不是 包括项目中完整的HTML解析器。
由您和我首先强烈倡导“率先上市具有巨大优势”。
不同之处在于,使用正确的HTML解析器,您正在考虑文档的结构。使用正则表达式,您依赖的文档永远不会以语法上完全有效的方式更改格式。
即。如果输入是<td class="name">Name: A name</td>
怎么办?您的正则表达式解析器刚刚打破了有效HTML的输入,并且从标记内容的角度来看,与原始输入相同。
答案 2 :(得分:3)
HTML不是常规语言,无法使用正则表达式正确解析。 Here's a classic SO answer解释了这个常见程序员的错误假设。
答案 3 :(得分:2)
在swift3中
//: Playground - noun: a place where people can play
import UIKit
/// Two groups. 1: [A-Z]+, 2: [0-9]+
var pattern = "([A-Z]+)([0-9]+)"
let regex = try NSRegularExpression(pattern: pattern, options:[.caseInsensitive])
let str = "AA01B2C3DD4"
let strLen = str.characters.count
let results = regex.matches(in: str, options: [], range: NSMakeRange(0, strLen))
let nsStr = str as NSString
for a in results {
let c = a.numberOfRanges
print(c)
let m0 = a.rangeAt(0) //< Ex: 'AA01'
let m1 = a.rangeAt(1) //< Group 1: Alpha chars, ex: 'AA'
let m2 = a.rangeAt(2) //< Group 2: Digital numbers, ex: '01'
// let m3 = a.rangeAt(3) //< Runtime exceptions
let s = nsStr.substring(with: m2)
print(s)
}
答案 4 :(得分:-1)
或者只是使用
[htmlString firstMatchedGroupWithRegex:@"Name:</td>.*\">(.*)</td>"]