Python:解析未知长度的文本

时间:2018-05-14 10:25:58

标签: python parsing text-processing text-parsing string-parsing

我有一个充满字符串的数据库,例如:

as.web.product.viewed(AT)2018-01-28T19:00:52.032Z(THEN)as.web.product.viewed(AT)2018-01-28T19:02:20.132Z

(另一个可能的分隔符是"(WITH)"行动是as.web.product.purchased所以理想情况下我需要一个尽可能通用的解决方案。

序列中可以有任意数量的操作,或多或少任何顺序。我需要能够隔离动作名称(例如as.web.product.viewed)及其发生的时间,并保持动作的顺序。

最常用的Python方式是什么?

编辑:所需的输出(对于上面的示例) - 2个列表,例如:

['as.web.product.viewed','as.web.product.viewed']
['2018-01-28T19:00:52.032Z','2018-01-28T19:02:20.132Z']

1 个答案:

答案 0 :(得分:2)

当圆括号中的文本出现时,您可以使用正则表达式来拆分字符串:

import re
pat = re.compile('''\([A-Za-z]+\)''')
s = "as.web.product.viewed(AT)2018-01-28T19:00:52.032Z(THEN)as.web.product.viewed(AT)2018-01-28T19:02:20.132Z"
r = (re.split(pat, s))
print (list(zip(r[::2], r[1::2]))) # group pairwise if needed !

返回:

[('as.web.product.viewed', '2018-01-28T19:00:52.032Z'), ('as.web.product.viewed', '2018-01-28T19:02:20.132Z')]