html属性的正则表达式,需要修复

时间:2016-10-23 11:23:41

标签: php html regex extraction

需要修复这个正则表达式,它通过php中的preg_mach_all函数为我提取数组中的html属性:

(\S+)=["']?((?:.(?!["']?\s+(?:\S+)=|[>"']))+.)["']?

属性示例是:

style="width: 462px;" src=".......=" data-filename="Screenshot from 2016-02-09 21:54:47.png"

在finddle中的工作示例:https://regex101.com/r/QE9XGD/1

由于src属性末尾的等号,我得错了数组:

 Array
(
    [0] => Array
        (
            [0] => style="width: 462px;"
            [1] => src=".......=" data-filename="
        )

    [1] => Array
        (
            [0] => style
            [1] => src=".......
        )

    [2] => Array
        (
            [0] => width: 462px;
            [1] =>  data-filename=
        )

)

正确的数组应该是这样的:

Array
    (
        [0] => Array
            (
                [0] => style="width: 462px;"
                [1] => src=".......="
               [2] => data-filename="Screenshot from 2016-02-09 1:54:47.png"
            )

        [1] => Array
            (
                [0] => style
                [1] => src
                [2] => data-filename
            )

        [2] => Array
            (
                [0] => width: 462px;
                [1] => .......=
                [2] => Screenshot from 2016-02-09 1:54:47.png
            )

    )

如何修复此正则表达式以获得正确答案?

请记住,我不仅在图像属性提取中使用此正则表达式,而且是所有类型的html标记的通用正则表达式

1 个答案:

答案 0 :(得分:-1)

(\S+?)=["']?((?:.(?!["']?\s+(?:\S+)=|[>"']))+.)["']?

更改是使属性名称评估 lazy ,因此它只会在找到=之前吃掉。

regex101

上的工作示例

话虽如此,我相信这个正则表达式可以减少。

([^\s=]+)=('?)("?)([^>"']*)\2\3可能是最好的选择:

大约有2%的时间是懒惰评估,并且会同时执行单引号和双引号属性。这里的重大变化是你想要的捕获组是第1和第4。据我所知,这将适用于任何html tag='"value'

regex101