pyparsing递归语法空格分隔列表中的逗号分隔列表

时间:2017-06-14 13:35:20

标签: recursion pyparsing

请准备以下我要解析的字符串:

((K00134,K00150) K00927,K11389) (K00234,K00235)

每个步骤用空格分隔,交替用逗号表示。我被困在字符串的第一部分,括号内有一个空格。我正在寻找的所需输出是:

[[['K00134', 'K00150'], 'K00927'], 'K11389'], ['K00234', 'K00235']

到目前为止我所做的是进行递归解析的基本设置,但我对如何在空格分隔列表中编码到括号表达式中感到困惑

from pyparsing import Word, Literal, Combine, nums, \
    Suppress, delimitedList, Group, Forward, ZeroOrMore

ortholog = Combine(Literal('K') + Word(nums, exact=5))
exp = Forward()
ortholog_group = Suppress('(') + Group(delimitedList(ortholog)) + Suppress(')')
atom = ortholog | ortholog_group | Group(Suppress('(') + exp + Suppress(')'))
exp <<= atom + ZeroOrMore(exp)

1 个答案:

答案 0 :(得分:1)

你走在正确的轨道上,但我认为你只需要一个包含()的分组,而不是两个。

import pyparsing as pp 

LPAR,RPAR = map(pp.Suppress, "()")
ortholog = pp.Combine('K' + pp.Word(pp.nums, exact=5))

ortholog_group = pp.Forward()
ortholog_group <<= pp.Group(LPAR + pp.OneOrMore(ortholog_group | pp.delimitedList(ortholog)) + RPAR)
expr = pp.OneOrMore(ortholog_group)

tests = """\
((K00134,K00150) K00927,K11389) (K00234,K00235)
"""
expr.runTests(tests)

给出:

((K00134,K00150) K00927,K11389) (K00234,K00235)
[[['K00134', 'K00150'], 'K00927', 'K11389'], ['K00234', 'K00235']]
[0]:
  [['K00134', 'K00150'], 'K00927', 'K11389']
  [0]:
    ['K00134', 'K00150']
  [1]:
    K00927
  [2]:
    K11389
[1]:
  ['K00234', 'K00235']

这不完全是你所说的:

you wanted: [[['K00134', 'K00150'], 'K00927'], 'K11389'], ['K00234', 'K00235']
I output  : [[['K00134', 'K00150'], 'K00927', 'K11389'], ['K00234', 'K00235']]

我不确定为什么在空格分隔部分(K00134,K00150) K00927周围的所需输出中存在分组。这是你的意图还是拼写错误?如果是故意的,你需要重新设计ortholog_group的定义,除了在parens上进行分组之外,还会做一个以空格分隔的分组列表。我能得到的最接近的是:

[[[[['K00134', 'K00150']], 'K00927'], ['K11389']], [['K00234', 'K00235']]]

这需要一些恶作剧在空间上分组,但在与其他组分组时不需要分组裸体直向同源物。这是它的样子:

ortholog_group <<= pp.Group(LPAR + pp.delimitedList(pp.Group(ortholog_group*(1,) & ortholog*(0,))) + RPAR) | pp.delimitedList(ortholog)

&运算符与重复运算符结合使用以空格分隔的分组(*(1,)相当于OneOrMore*(0,)ZeroOrMore相同,但也支持{10}或更多的*(10,),或者*(3,5)代表“至少3和不超过5”。这也不是你所要求的,但如果你确实需要对空格分隔的位进行分组,可能会让你更接近。

但我必须说,对空间进行分组是模棱两可的 - 或者至少令人困惑。 “(A,B)C D”应该是[[A,B],C,D]还是[[A,B],C],[D]还是[[A,B],[C,D]]?我认为,如果可能的话,你应该允许使用逗号分隔的列表,并且也许也可以空格分隔,但是当项目应该被分组时需要()。