请准备以下我要解析的字符串:
((K00134,K00150) K00927,K11389) (K00234,K00235)
每个步骤用空格分隔,交替用逗号表示。我被困在字符串的第一部分,括号内有一个空格。我正在寻找的所需输出是:
[[['K00134', 'K00150'], 'K00927'], 'K11389'], ['K00234', 'K00235']
到目前为止我所做的是进行递归解析的基本设置,但我对如何在空格分隔列表中编码到括号表达式中感到困惑
from pyparsing import Word, Literal, Combine, nums, \
Suppress, delimitedList, Group, Forward, ZeroOrMore
ortholog = Combine(Literal('K') + Word(nums, exact=5))
exp = Forward()
ortholog_group = Suppress('(') + Group(delimitedList(ortholog)) + Suppress(')')
atom = ortholog | ortholog_group | Group(Suppress('(') + exp + Suppress(')'))
exp <<= atom + ZeroOrMore(exp)
答案 0 :(得分:1)
你走在正确的轨道上,但我认为你只需要一个包含()的分组,而不是两个。
import pyparsing as pp
LPAR,RPAR = map(pp.Suppress, "()")
ortholog = pp.Combine('K' + pp.Word(pp.nums, exact=5))
ortholog_group = pp.Forward()
ortholog_group <<= pp.Group(LPAR + pp.OneOrMore(ortholog_group | pp.delimitedList(ortholog)) + RPAR)
expr = pp.OneOrMore(ortholog_group)
tests = """\
((K00134,K00150) K00927,K11389) (K00234,K00235)
"""
expr.runTests(tests)
给出:
((K00134,K00150) K00927,K11389) (K00234,K00235)
[[['K00134', 'K00150'], 'K00927', 'K11389'], ['K00234', 'K00235']]
[0]:
[['K00134', 'K00150'], 'K00927', 'K11389']
[0]:
['K00134', 'K00150']
[1]:
K00927
[2]:
K11389
[1]:
['K00234', 'K00235']
这不完全是你所说的:
you wanted: [[['K00134', 'K00150'], 'K00927'], 'K11389'], ['K00234', 'K00235']
I output : [[['K00134', 'K00150'], 'K00927', 'K11389'], ['K00234', 'K00235']]
我不确定为什么在空格分隔部分(K00134,K00150) K00927
周围的所需输出中存在分组。这是你的意图还是拼写错误?如果是故意的,你需要重新设计ortholog_group
的定义,除了在parens上进行分组之外,还会做一个以空格分隔的分组列表。我能得到的最接近的是:
[[[[['K00134', 'K00150']], 'K00927'], ['K11389']], [['K00234', 'K00235']]]
这需要一些恶作剧在空间上分组,但在与其他组分组时不需要分组裸体直向同源物。这是它的样子:
ortholog_group <<= pp.Group(LPAR + pp.delimitedList(pp.Group(ortholog_group*(1,) & ortholog*(0,))) + RPAR) | pp.delimitedList(ortholog)
&
运算符与重复运算符结合使用以空格分隔的分组(*(1,)
相当于OneOrMore
,*(0,)
与ZeroOrMore
相同,但也支持{10}或更多的*(10,)
,或者*(3,5)
代表“至少3和不超过5”。这也不是你所要求的,但如果你确实需要对空格分隔的位进行分组,可能会让你更接近。
但我必须说,对空间进行分组是模棱两可的 - 或者至少令人困惑。 “(A,B)C D”应该是[[A,B],C,D]
还是[[A,B],C],[D]
还是[[A,B],[C,D]]
?我认为,如果可能的话,你应该允许使用逗号分隔的列表,并且也许也可以空格分隔,但是当项目应该被分组时需要()。