名称值对的正则表达式

时间:2013-12-03 15:59:28

标签: python regex

我需要帮助开发一个强大的正则表达式,针对以fortran语法编写的键值对,其格式如下:

name = values* name=values* ...

实施例

字符串:

name="my name is" multipleValues = 0.543 0.754 1.166 multipleValues(2) = 'value' "Value2" 4.76454 100 single(1) = 10 single(2)=3.589  boolean = .True. .F. ! comment to mess things up

应该分成:

(name, "my name is"),
(multipleValues, [0.543, 0.754, 1.166])
(multipleValues(2), ['value', "Value2", 4.76454, 100])
(single(1), 10)
(single(2), 3.589)
(boolean, [.True., .F.])

试过

使用此question种工作的正则表达式:

"((?:\"[^\"]*\"|[^=,])*)=((?:\"[^\"]*\"|[^=,])*)"

但它包含值列表中等号后的所有文本:

>>> re.findall('((?:\"[^\"]*\"|[^=,])*)=((?:\"[^\"]*\"|[^=,])*)', testStr)
[('name', "'my name is' multipleValues "), ('', ' 0.543 0.754 1.166 multipleValues(2) '), ('', " 'value' 'Value2' 4.76454 100 single(1) "), ('', ' 10 single(2)'), ('', '3.589  boolean '), ('', ' .True. .F. ! comment to mess things up')]

也许需要看看背后?

注意:解决方案不需要是单个表达式。

1 个答案:

答案 0 :(得分:1)

您可以使用以下内容获取密钥和包含其所有值的字符串

(\w+(?:\(\d+\))?)\s*=\s*(.*?)(?=(!|$|\w+(\(\d+\))?\s*=))

第1组是关键,第2组是其所有值的组合。 RegExr Example.

<强>的Python:

使用该正则表达式,然后在适当的空格上拆分第2组。

>>> matches = re.findall(r'(\w+(?:\(\d+\))?)\s*=\s*(.*?)(?=(!|$|\w+(\(\d+\))?\s*=))', testStr)
>>> keyval = {}
>>> for match in matches:
>>>     vals = match[1].strip()
>>>     keyval[match[0]] = re.split(r' (?![A-Za-z])', vals) 

<强>输出:

{
    'name': ['"my name is"'], 
    'single(1)': ['10'], 
    'single(2)': ['3.589'], 
    'multipleValues': ['0.543', '0.754', '1.166'], 
    'boolean': ['.True.', '.F.'], 
    'multipleValues(2)': ["'value'", '"Value2"', '4.76454', '100']
}