我试图从这个数组中获取信息,但出于某种原因,它将所有内容嵌套到$matches[0]
中。
<?
$file = shell_exec('pdf2txt.py docs/April.pdf');
preg_match_all('/.../',$file,&$matches);
print_r($matches)
?>
这是否按预期工作?有没有办法把它放在深度为1的数组中?
这是RegEx:
([A-Z][a-z]+\s){1,5}\s?[^a-zA-Z\d\s:,.\'\"]\s?[A-Za-z+\W]+\s[\d]{1,2}\s[A-Z][a-z]+\s[\d]{4}
答案 0 :(得分:12)
preg_match_all()
总是返回一个数组(如果成功,否则你得到一个空数组),其中index 0
包含一个数组,每个匹配都有一个元素,其他索引成为捕获组,每个匹配都有一个内部数组。
这可能更容易理解......
array(2) {
[0]=>
array(2) {
[0]=>
string(12) "entire match"
[1]=>
string(32) "entire match matched second time"
}
[1]=>
array(2) {
[0]=>
string(15) "capturing group"
[1]=>
string(35) "capturing group matched second time"
}
}
答案 1 :(得分:1)
如果您的目标是仅获取捕获的角色(您的“([[A-Z] [a-z] + \ s){1,5}”捕获的内容,您应该查看$ matches [1]。 $ matches [1] [0]包含第一个捕获的字符序列。
根据preg_match_all docs,如果未指定订单标志(如示例所示),则假定为PREG_PATTERN_ORDER。使用此模式,您会发现$ matches [0]是一个数组,其中包含与您的完整模式匹配的所有字符串,$ matches [1]包含由正则表达式捕获的字符串数组。