Question

我正在寻找一个正则表达式术语，它将捕获以特定字符序列开头的字符串子集（在我的情况下为http）直到空格。

我正在使用python中的问题，处理字符串列表并用''替换'bad'子字符串。

困难源于不一定开始子字符串中的单词的字符。下面的示例，粗体是我要捕获的部分：

“Pasforcément httpwwwsudououfrfr20101129lesyndromedeliledererevientdanslactualite2525391381php merci httpswwwgooglecomsilvous ”

谢谢

Answer 1

使用findall：

df['x']  = pd.period_range('7/1/2006', '11/1/2006', freq='M')

type(df['x'][0])
#pandas._libs.period.Period

df['x'].apply(lambda x : x.to_timestamp())

替换（如果内存不是问题）：

>>> text = '''Pasforcémenthttpwwwsudouestfr20101129lesyndromedeliledererevientdanslactualite2525391381php merci httpswwwgooglecomsilvous '''
>>> import re
>>> re.findall(r'http\S+', text)
['httpwwwsudouestfr20101129lesyndromedeliledererevientdanslactualite2525391381php', 'httpswwwgooglecomsilvous']

Answer 2

你可以试试这个：

strings = [] #your list of strings goes here
import re
new_strings = [re.sub("https.*?php|https.*?$", '.', i) for i in strings]

从字符到单词结尾的子字符串正则表达式

2 个答案: