从字符到单词结尾的子字符串正则表达式

时间:2017-10-04 15:28:58

标签: python regex

我正在寻找一个正则表达式术语,它将捕获以特定字符序列开头的字符串子集(在我的情况下为http)直到空格。

我正在使用python中的问题,处理字符串列表并用''替换'bad'子字符串。

困难源于不一定开始子字符串中的单词的字符。下面的示例,粗体是我要捕获的部分:

“Pasforcément httpwwwsudououfrfr20101129lesyndromedeliledererevientdanslactualite2525391381php merci httpswwwgooglecomsilvous

谢谢

2 个答案:

答案 0 :(得分:2)

使用findall

df['x']  = pd.period_range('7/1/2006', '11/1/2006', freq='M')

type(df['x'][0])
#pandas._libs.period.Period

df['x'].apply(lambda x : x.to_timestamp())

替换(如果内存不是问题):

>>> text = '''Pasforcémenthttpwwwsudouestfr20101129lesyndromedeliledererevientdanslactualite2525391381php merci httpswwwgooglecomsilvous '''
>>> import re
>>> re.findall(r'http\S+', text)
['httpwwwsudouestfr20101129lesyndromedeliledererevientdanslactualite2525391381php', 'httpswwwgooglecomsilvous']

答案 1 :(得分:0)

你可以试试这个:

strings = [] #your list of strings goes here
import re
new_strings = [re.sub("https.*?php|https.*?$", '.', i) for i in strings]