我想使用正则表达式实现字符串转换器和枚举(tokenizer)。
如果给出这样的数据:
" 2017-04-03 08:10:42今天新闻......(一些很多字符串)...位置中国警报(雾,5),南,南,等级(5),天气是多云交通(今天>昨天)增加"
期望处理结果格式(令牌列表):
['DATE', 'Plain', 'location', 'Alert', 'Nan', 'Level', 'WeatherCondition', 'TrafficCondition']
使用re.finditer(regex, given_data, re.I)
可以提取匹配的正则表达式但是,我希望将所有内容显示为' Plain'除了匹配的正则表达式。
我还想从列表中删除重复的值(例如' Plain',' Nan')。