我正在努力制作我的第一个正则表达式。我希望能够匹配一个伪HTML元素并提取有用的信息,如标签名称,属性等:
$string = '<testtag alpha="value" beta="xyz" gamma="abc" >';
if (preg_match('/<(\w+?)(\s\w+?\s*=\s*".*?")+\s*>/', $string, $matches)) {
print_r($matches);
}
除了,我得到了:
Array ( [0] => [1] => testtag [2] => gamma="abc" )
任何人都知道如何获得其他属性?我错过了什么?
答案 0 :(得分:3)
试试这个正则表达式:
/<(\w+)((?:\s+\w+\s*=\s*(?:"[^"]*"|'[^']*'|[^'">\s]*))*)\s*>/
但是你真的不应该使用正则表达式来处理像HTML这样的无上下文语言。请改用真正的解析器。
答案 1 :(得分:1)
如前所述,不使用RegEx解析HTML文档。
请尝试使用此PHP解析器:http://simplehtmldom.sourceforge.net/
答案 2 :(得分:0)
您的第二个捕获组一次匹配一个属性,每次都覆盖前一个属性。如果您使用的是.NET正则表达式,则可以使用Captures数组来检索单个捕获,但我不知道具有该功能的任何其他正则表达式。通常你必须做一些事情,比如捕获一个组中的所有属性,然后在捕获的文本上使用另一个正则表达式来打破各个属性。
这就是为什么人们倾向于喜欢正则表达式或讨厌他们(或两者兼而有之)。你可以用它们做一些真正令人惊奇的事情,但是你也会继续遇到这样一个非常困难的简单任务,如果不是不可能的话。