我需要帮助开发一个强大的正则表达式,针对以fortran语法编写的键值对,其格式如下:
name = values* name=values* ...
字符串:
name="my name is" multipleValues = 0.543 0.754 1.166 multipleValues(2) = 'value' "Value2" 4.76454 100 single(1) = 10 single(2)=3.589 boolean = .True. .F. ! comment to mess things up
应该分成:
(name, "my name is"),
(multipleValues, [0.543, 0.754, 1.166])
(multipleValues(2), ['value', "Value2", 4.76454, 100])
(single(1), 10)
(single(2), 3.589)
(boolean, [.True., .F.])
使用此question种工作的正则表达式:
"((?:\"[^\"]*\"|[^=,])*)=((?:\"[^\"]*\"|[^=,])*)"
但它包含值列表中等号后的所有文本:
>>> re.findall('((?:\"[^\"]*\"|[^=,])*)=((?:\"[^\"]*\"|[^=,])*)', testStr)
[('name', "'my name is' multipleValues "), ('', ' 0.543 0.754 1.166 multipleValues(2) '), ('', " 'value' 'Value2' 4.76454 100 single(1) "), ('', ' 10 single(2)'), ('', '3.589 boolean '), ('', ' .True. .F. ! comment to mess things up')]
也许需要看看背后?
注意:解决方案不需要是单个表达式。
答案 0 :(得分:1)
您可以使用以下内容获取密钥和包含其所有值的字符串
(\w+(?:\(\d+\))?)\s*=\s*(.*?)(?=(!|$|\w+(\(\d+\))?\s*=))
第1组是关键,第2组是其所有值的组合。 RegExr Example.
<强>的Python:强>
使用该正则表达式,然后在适当的空格上拆分第2组。
>>> matches = re.findall(r'(\w+(?:\(\d+\))?)\s*=\s*(.*?)(?=(!|$|\w+(\(\d+\))?\s*=))', testStr)
>>> keyval = {}
>>> for match in matches:
>>> vals = match[1].strip()
>>> keyval[match[0]] = re.split(r' (?![A-Za-z])', vals)
<强>输出:强>
{
'name': ['"my name is"'],
'single(1)': ['10'],
'single(2)': ['3.589'],
'multipleValues': ['0.543', '0.754', '1.166'],
'boolean': ['.True.', '.F.'],
'multipleValues(2)': ["'value'", '"Value2"', '4.76454', '100']
}