如何用PHP解析异构标记?

时间:2013-05-03 12:07:26

标签: php regex parsing syntax markup

我有一个带有自定义标记的字符串,用于保存带有和弦,平板电脑,音符等的歌曲。它包含

各种括号中的内容:\[.+?\]\[[.+?\]]\(.+?\)
箭头:<-{3,}>\-{3,}><\-{3,}
等等...

示例文字可能是

Text Text [something]
--->
Text (something 021213)

现在我希望将标记解析为标记数组,相应类的对象,看起来像(括号中的匹配部分)

ParsedBlock_Text ("Text Text ")
ParsedBlock_Chord ("something")
ParsedBlock_Text (" ")
ParsedBlock_NewColumn
ParsedBlock_Text (" text ")
ParsedBlock_ChordDiagram ("something 021213")

我知道如何匹配它们,但是我必须匹配每个不同的模式,并保存偏移以正确排序数组,或者我一次匹配它们并且我不知道哪个匹配了。

谢谢,MK

1 个答案:

答案 0 :(得分:1)

假设您没有尝试嵌套这些结构,这将标记您的文本:

function ParseText($text) {
    $re = '/\[\[(?P<DoubleBracket>.*?)]]|\[(?P<Bracket>.*?)]|\((?P<Paren>.*?)\)|(?<Arrow><---+>?|---+>)/s';
    $keys = array('DoubleBracket', 'Bracket', 'Paren', 'Arrow');
    $result = array();
    $lastStart = 0;
    if (preg_match_all($re, $text, $matches, PREG_SET_ORDER | PREG_OFFSET_CAPTURE)) {
        foreach ($matches as $match) {
            $start = $match[0][1];
            $prefix = substr($text, $lastStart, $start - $lastStart);
            $lastStart = $start + strlen($match[0][0]);
            if ($prefix != '' && !ctype_space($prefix)) {
                $result []= array('Text', trim($prefix));
            }
            foreach ($keys as $key) {
                if (isset($match[$key]) && $match[$key][1] >= 0) {
                    $result []=  array($key, $match[$key][0]);
                    break;
                }
            }
        }
    }
    $prefix = substr($text, $lastStart);
    if ($prefix != '' && !ctype_space($prefix)) {
        $result []= array('Text', trim($prefix));
    }
    return $result;
}

示例:

$mytext = <<<'EOT'
Text Text [something]
--->
Text (something 021213)
More Text
EOT;

$parsed = ParseText($mytext);
foreach ($parsed as $item) {
    print_r($item);
}

<强>输出:

Array
(
    [0] => Text
    [1] => Text Text
)
Array
(
    [0] => Bracket
    [1] => something
)
Array
(
    [0] => Arrow
    [1] => --->
)
Array
(
    [0] => Text
    [1] => Text
)
Array
(
    [0] => Paren
    [1] => something 021213
)
Array
(
    [0] => Text
    [1] => More Text
)

http://ideone.com/kJQrBw

如果要在正则表达式中添加更多模式,请确保在开头添加更长的模式,这样它们就不会错误地匹配为错误类型。