PHP RegEx分组多个匹配

时间:2009-07-06 15:46:43

标签: php regex

我正在努力制作我的第一个正则表达式。我希望能够匹配一个伪HTML元素并提取有用的信息,如标签名称,属性等:

$string = '<testtag alpha="value" beta="xyz" gamma="abc"  >';

if (preg_match('/<(\w+?)(\s\w+?\s*=\s*".*?")+\s*>/', $string, $matches)) {
    print_r($matches);
}

除了,我得到了:

Array ( [0] =>  [1] => testtag [2] => gamma="abc" ) 

任何人都知道如何获得其他属性?我错过了什么?

3 个答案:

答案 0 :(得分:3)

试试这个正则表达式:

/<(\w+)((?:\s+\w+\s*=\s*(?:"[^"]*"|'[^']*'|[^'">\s]*))*)\s*>/

但是你真的不应该使用正则表达式来处理像HTML这样的无上下文语言。请改用真正的解析器。

答案 1 :(得分:1)

如前所述,不使用RegEx解析HTML文档

请尝试使用此PHP解析器:http://simplehtmldom.sourceforge.net/

答案 2 :(得分:0)

您的第二个捕获组一次匹配一个属性,每次都覆盖前一个属性。如果您使用的是.NET正则表达式,则可以使用Captures数组来检索单个捕获,但我不知道具有该功能的任何其他正则表达式。通常你必须做一些事情,比如捕获一个组中的所有属性,然后在捕获的文本上使用另一个正则表达式来打破各个属性。

这就是为什么人们倾向于喜欢正则表达式或讨厌他们(或两者兼而有之)。你可以用它们做一些真正令人惊奇的事情,但是你也会继续遇到这样一个非常困难的简单任务,如果不是不可能的话。