PHP preg_match_all:提取命令的参数

时间:2013-08-04 18:41:11

标签: php regex preg-match-all

我有以下LaTeX命令:

\autocites[][]{}[][]{}

其中[]内的参数是可选的,{}中的其他参数是必需的。 \autocites命令可以通过其他参数组进行扩展,例如:

\autocites[a1][a2]{a3}[b1][b2]{b3}
\autocites[a1][a2]{a3}[b1][b2]{b3}[c1][c2]{c3}
...

它也可以像这样使用:

\autocites{a}{b}
\autocites{a}[b1][]{b3}
\autocites{a}[][b2]{b3}
...

我希望通过在PHP中使用正则表达式来提取其参数。这是我的第一次尝试:

/\\autocites(\[(.*?)\])(\[(.*?)\])(\{(.*?)\})(\[(.*?)\])(\[(.*?)\])(\{(.*?)\})/

虽然如果\autocites只包含两组三个参数,但这种情况正常,但我无法弄清楚如何让它适用于未知数量的参数。

我也尝试使用以下表达式:

/\\autocites((\[(.*?)\]\[(.*?)\])?\{(.*?)\}){2,}/

这次我能够匹配更多数量的参数但是我无法提取所有值,因为PHP总是只给我最后三个参数的内容:

Array
(
    [0] => Array
        (
            [0] => \autocites[a][b]{c}[d][e]{f}[a][a]{a}
        )

    [1] => Array
        (
            [0] => [a][a]{a}
        )

    [2] => Array
        (
            [0] => [a][a]
        )

    [3] => Array
        (
            [0] => a
        )

    [4] => Array
        (
            [0] => a
        )

    [5] => Array
        (
            [0] => a
        )

)

非常感谢任何帮助。

1 个答案:

答案 0 :(得分:2)

你必须分两步完成。只有.NET可以检索任意数量的捕获。在所有其他类型中,结果捕获的数量由模式中的组数量来确定(重复一个组只会覆盖以前的捕获)。

首先,匹配整个事物以获取参数,然后在第二步中提取它们:

preg_match('/\\\\autocites((?:\{[^}]*\}|\[[^]]*\])+)/', $input, $autocite);
preg_match_all('/(?|\{([^}]*)\}|\[([^]]*)\])/', $autocite[1], $parameters);
// $parameters[1] will now be an array of all parameters

Working demo.

使用更精细的方法和锚\G我们也可以一次性完成所有操作,使用任意数量的匹配而不是捕获:

preg_match_all('/
    (?|             # two alternatives whose group numbers both begin at 1
      \\\\autocites  # match the command
      (?|\{([^}]*)\}|\[([^]]*)\])
                    # and a parameter in group 1
    |               # OR
      \G            # anchor the match to the end of the last match
      (?|\{([^}]*)\}|\[([^]]*)\])
                    # and match a parameter in group 1
    )
    /x',
    $input,
    $parameters);
// again, you'll have an array of parameters in $parameters[1]

Working demo.

请注意,使用此方法 - 如果代码中有多个autocites,您将从单个列表中的所有命令中获取所有参数。有一些方法可以减轻这种情况,但我认为第一种方法在这种情况下会更清洁。

如果您希望能够区分可选参数和强制参数(使用任何方法),请捕获开始或结束括号/括号以及参数,并检查该字符以找出它是什么类型。