仅当元素出现在解析字符串的右半部分时才匹配元素

时间:2016-12-20 03:53:37

标签: python parsing grammar pyparsing

问题

我想创建一个匹配

等字符串的解析器
"alpha beta 123 cpart"

 ----^----- -^- --^--
     A:      B:   C:
 alphanums  num alpha 

B 部分只应在字符串后半部分出现时(即字符串中间点的“右侧”)匹配。

因此,上面的示例字符串应该解析为部分:

A: ['alpha', 'beta']
B: '123'
C: ['cpart']

但字符串"123 alpha beta cpart"应解析为:

A: '123 alpha beta cpart'
B: ''
C: ''

第一次近似与pyparsing

作为pyparsing的起点,我尝试使用matchOnlyAtCol函数(我以后可以提供一个接受范围而不是单个列的修改版本)。但是我对matchOnlyAtCol的一些奇怪行为感到困惑。这是我的演示代码:

b_only_near_end = pp.Word(pp.nums)\
                    .setParseAction(pp.matchOnlyAtCol(12))('B')
a = pp.ZeroOrMore(pp.Word(pp.alphanums), stopOn=b_only_near_end)('A')
c = pp.ZeroOrMore(pp.Word(pp.alphas))('C')
expr = a + pp.Optional(b_only_near_end) + c

1)当我将第一个样本字符串"alpha beta 123 cpart"提供给expr的{​​{1}}时,我得到了预期的结果

ParseString

因为 B 正好在第12列开始。

2)当我提供第二个字符串A: ['alpha', 'beta'] B: '123' C: ['cpart'] (第1列的 B 部分)时,我得到了

"123 alpha beta cpart"

为什么呢? ParseException: Expected end of text (at char 0), (line:1, col:1) ">!<123 alpha beta cpart" 根本不匹配,因此不会停止表达式b_only_near_end,所以我希望a占用所有字符,我不希望出现异常,因为所有部分以某种方式是可选的(通过a类或通过Optional构造)。

更新:什么匹配调试显示

我通过以下表达式代码通过ZeroOrMore启用setDebug()元素的调试:

ZeroOrMore

1)当输入字符串b_word = pp.Word(pp.nums).setName('_B_word_') b_word.setDebug() b_only_near_end = b_word\ .setParseAction(pp.matchOnlyAtCol(12))('B') a_word = pp.Word(pp.alphanums).setName('_A_word_') a_word.setDebug() a = pp.ZeroOrMore(a_word, stopOn=b_only_near_end).setName('__A__')('A') a.setDebug() c_word = pp.Word(pp.alphas).setName('_C_word_') c_word.setDebug() c = pp.ZeroOrMore(c_word).setName('__C__')('C') c.setDebug() expr = a + pp.Optional(b_only_near_end) + c 时,我得到调试输出:

"alpha beta 123 cpart"

2)使用字符串Match __A__ at loc 0(1,1) Match _B_word_ at loc 0(1,1) Exception raised:Expected _B_word_ (at char 0), (line:1, col:1) Match _A_word_ at loc 0(1,1) Matched _A_word_ -> ['alpha'] Match _B_word_ at loc 5(1,6) Exception raised:Expected _B_word_ (at char 6), (line:1, col:7) Match _A_word_ at loc 5(1,6) Matched _A_word_ -> ['beta'] Match _B_word_ at loc 10(1,11) Matched _B_word_ -> ['123'] Matched __A__ -> ['alpha', 'beta'] Match _B_word_ at loc 11(1,12) Matched _B_word_ -> ['123'] Match __C__ at loc 14(1,15) Match _C_word_ at loc 15(1,16) Matched _C_word_ -> ['cpart'] Match _C_word_ at loc 20(1,21) Exception raised:Expected _C_word_ (at char 20), (line:1, col:21) Matched __C__ -> ['cpart'] ,输出为:

"123 alpha beta cpart"

加上ParseException:

Match __A__ at loc 0(1,1)
Match _B_word_ at loc 0(1,1)
Matched _B_word_ -> ['123']
Matched __A__ -> []
Match _B_word_ at loc 0(1,1)
Exception raised:matched token not at column 12 (at char 0), (line:1, col:1)
Match __C__ at loc 0(1,1)
Match _C_word_ at loc 0(1,1)
Exception raised:Expected _C_word_ (at char 0), (line:1, col:1)
Matched __C__ -> []

所以这意味着 A 部分匹配字符串的开头 - 空匹配结果,因为Expected end of text (at char 0), (line:1, col:1) ">!<123 alpha beta cpart" 不匹配 - 所以我想我必须使 A 更贪心,但怎么样?

奇怪的是那个

a_word

发生在

之前
Matched __A__ -> []

A 应该“等待”匹配结果更长时间,但我怎么强迫它这样做呢?

也许整个方法都没有成果?还有另一种方法只能在字符串的第二部分实现匹配吗?

1 个答案:

答案 0 :(得分:1)

1)在第一次近似与pyparsing 的代码中查看该行

b_only_near_end = pp.Word(pp.nums)\
                  .setParseAction(pp.matchOnlyAtCol(12))('B')

附加解析操作时,请设置callDuringTry选项:

b_only_near_end = pp.Word(pp.nums)\
                  .setParseAction(pp.matchOnlyAtCol(12), 
                                  callDuringTry=True))('B')

然后{“1}}将在”前瞻和替代测试期间“(引用from the docu)进行检查。 如果没有这个选项,就不会发生这种情况!

2)为了解决标题问题“仅当元素出现在解析字符串的右半部分时才匹配元素”(在问题下拼写出来)定义一个函数:

matchOnlyAtCol

并将其用作解析操作:

def matchOnlyInRightHalf():
    """
    Helper method for defining parse actions that require matching in the
    right half of the parse string.
    """
    def verifyInRightHalf(strg,locn,toks):
        col = pp.col(locn,strg)
        middle = len(strg) // 2
        if not (col> middle):
            raise pp.ParseException(strg, locn,
                                "matched token not in right half of string")
    return verifyInRightHalf