我需要解析一些语句,但希望能够灵活地使用多个单词来表示语句。
例如
string = """
start some statement end
other stuff in between
start some other statement.
other stuff in between
start another statement
"""
在这种情况下end
,.
和行尾是代表结束的标记
我正在寻找的声明。
我尝试了以下内容:
from pyparsing import restOfLine, SkipTo
skip_to_end_of_line = restOfLine
skip_to_dot = SkipTo('.', include=False)
skip_to_end = SkipTo('end', include=False)
statement = 'start' + skip_to_end_of_line^skip_to_dot^skip_to_end
statement.searchString(string)
([(['start some statement end\nother stuff in between\nstart some other statement'], {}), (['start', ' another statement'], {})], {})
通过使用OR函数,如果有两个以上的匹配则返回最大的字符串,我希望OR返回最短的字符串 导致
([(['start', ' some statement end'], {}), (['start', ' some other statement.'], {}), (['start', ' another statement'], {})], {})
答案 0 :(得分:2)
term = LineEnd().suppress() | '.' | 'end'
statement = 'start' + OneOrMore(~term + Word(alphas)) + term
是pyparsing不太可预测的特性之一,因为输入数据很容易导致跳过或多或少的跳过。
请改为尝试:
originalTextFor
这个表达式不是盲目地跳过,而是迭代地找到单词,并在找到一个终止条件时停止。
如果您想要实际的正文字符串而不是单词集合,可以使用statement = 'start' + originalTextFor(OneOrMore(~term + Word(alphas))) + term
:
{{1}}