我正在寻找一个正则表达式术语,它将捕获以特定字符序列开头的字符串子集(在我的情况下为http)直到空格。
我正在使用python中的问题,处理字符串列表并用''替换'bad'子字符串。
困难源于不一定开始子字符串中的单词的字符。下面的示例,粗体是我要捕获的部分:
“Pasforcément httpwwwsudououfrfr20101129lesyndromedeliledererevientdanslactualite2525391381php merci httpswwwgooglecomsilvous ”
谢谢
答案 0 :(得分:2)
使用findall:
df['x'] = pd.period_range('7/1/2006', '11/1/2006', freq='M')
type(df['x'][0])
#pandas._libs.period.Period
df['x'].apply(lambda x : x.to_timestamp())
替换(如果内存不是问题):
>>> text = '''Pasforcémenthttpwwwsudouestfr20101129lesyndromedeliledererevientdanslactualite2525391381php merci httpswwwgooglecomsilvous '''
>>> import re
>>> re.findall(r'http\S+', text)
['httpwwwsudouestfr20101129lesyndromedeliledererevientdanslactualite2525391381php', 'httpswwwgooglecomsilvous']
答案 1 :(得分:0)
你可以试试这个:
strings = [] #your list of strings goes here
import re
new_strings = [re.sub("https.*?php|https.*?$", '.', i) for i in strings]