我对正则表达式有点担心。我想检索电话号码后面的所有文本。文本如下:
2018/06/22下午10:16-Les messagesenvoyésdans ce groupe sont bout en bout的désormaisprotégésavec le chiffrement。阿普耶斯倒 加上d'信息。
2018年5月28日下午4:34-+ 60 17-7511232 “ SE&E(SEE)Asia✈⛴Travelersgroup”
2018/06/22下午10:16-Vous avezintégréle groupe en utilisant le 留置权
2018/06/22下午10:17-Kdm:我需要帮助我想前往中国。所以 我需要签证,我可以为我提供有关信息的信息吗
2018/06/22下午10:17-Kdm:大家好
2018/06/22下午10:18-+ 62857-1592-9544:是的,您可以提供帮助 自己
2018/06/22下午10:19-Kdm:哈哈
2018/06/22下午10:20-+ 91 9650052277:你想去哪里 中国吗?
2018年6月22日下午10:21-Kdm:首都因为我遇到了问题 护照。所以我要申请新护照;是河内的学生
match = re.search(r'((?:\+|00)[17](?: |\-)?|(?:\+|00)[1-9]\d{0,2}(?: |\-)?|(?:\+|00)1\-\d{3}(?: |\-)?)?(0\d|\([0-9]{3}\)|[1-9]{0,3})(?:((?: |\-)[0-9]{2}){4}|((?:[0-9]{2}){4})|((?: |\-)[0-9]{3}(?: |\-)[0-9]{4})|([0-9]{7}))(.*?)\s(.*)',splitstring[i])
答案 0 :(得分:0)
您是否打算使用正则表达式?如果不是另一种方法,您可以在发件人之后仅找到文本:
# coding=utf-8
position_of_character = newline.find(': ')
print newline[position_of_character+1:]
这段代码将在冒号后面加上一个空格。 然后,这将专门提取文本每一行中第二个冒号的值,并忽略时间戳中找到的冒号。 但是,它不一定是万无一失的,因为其中可能包含一些包含“:”的消息。
答案 1 :(得分:0)
此正则表达式捕获收件人电话号码/姓名之后的所有内容-字母,数字和表情符号;
id="empty1","empty2"
但是,正如Cici所提到的,其中可能包含一些包含“:”的消息,它也会捕获该消息。