拆分具有多个分隔符和条件的字符串

时间:2015-11-09 07:20:31

标签: python regex parsing string-split

我有一个来自日志文件的字符串,它有多个分隔符以使其顺序。

完整字符串field1.field2.field3/field4/field5|field6|field7//|field8..

. field1.field2.field3

分隔

/ /field4/field5

分隔

|分隔。但是,"/""."在字符串的这一部分中不是分隔符 |field6|field7//|field8..

目前,我正在解析如下,

x
Out[64]: 'field1.field2.field3/field4/field5|field6|field7//|field8..'

y= x.split("|")
y
Out[66]: ['field1.field2.field3/field4/field5', 'field6', 'field7//', 'field8..']

z = y[0].split("/")
z
Out[68]: ['field1.field2.field3', 'field4', 'field5']

i = z[0].split(".")
i
Out[70]: ['field1', 'field2', 'field3']


result = i+z[1:]+y[1:]
result
Out[79]: 
['field1',
 'field2',
 'field3',
 'field4',
 'field5',
 'field6',
 'field7//',
 'field8..']

我认为它是非常无效的解析方式。感谢一些建议,使其更好。

我不能让所有三个分隔符[|\.]在没有条件的情况下分隔字符串中的属性

1 个答案:

答案 0 :(得分:2)

使用re.split

re.split(r'[./|]', x)

re.split(r'\b[./]\b|\|', x)
  • \b[./]\b匹配前面和后面跟有单词字符的所有点或正斜杠。

  • |

  • \|匹配所有管道字符。

  • re.split会根据匹配的字符进行拆分。

>>> s = "field1.field2.field3/field4/field5|field6|field7//|field8.."
>>> re.split(r'(?<!\.)\.(?!\.)|(?<!\/)\/(?!\/)|(?<!\|)\|(?!\|)', s)
['field1', 'field2', 'field3', 'field4', 'field5', 'field6', 'field7//', 'field8..']