拆分所有点字符(。)的字符串,但Python中的URL和电子邮件地址除外

时间:2018-02-27 08:56:52

标签: python regex split

我是正则表达式的相对新手。我在Python中有一个非常简单的用例,但我无法找到最简单的方法。我有一个段落,我想分成句子。它是一个解释某些步骤的技术段落,所以我现在使用的是一个非常简单的东西,它是关于所有点的分裂(。) 但是,该段落也可能包含一些URL或电子邮件地址,其中可能包含一个点(。),但我不想将它们拆分。一种方法是从段落中取出所有的URL和电子邮件地址(使用正则表达式?)然后拆分是关于(。)然后添加回URL等。 我假设必须有一个更好的方法来实现这一点,通过使用正则表达式库中的split函数和适当的正则表达式。 提供一个明确的例子:

input= "Click on the next button. If you do not see this option, you may contact: xyz@support.com. Please mention your user id in the email"
output= ["click on the next button", "If you do not see this option, you may contact: xyz@support.com", "Please mention your user id in the email"]

1 个答案:

答案 0 :(得分:1)

outp = inp.split('. ') #Will not trigger on URLS and email adresses

假设段落中没有语法错误。