我从beautifulsoup网站上抓取了数据。与时间和更新日期相同的标签。这就是为什么我要分离它们并删除“ Update:”字符串。我无法想象如何。
我想要的字符串应该像这样:
a="4 July 2019 Friday 07:52"
b="04.07.2019 07:52"
publishTime=source.find("div", attrs={"class":"textInfo"}).text
print(publishTime.strip())
4 July 2019 Friday 07:52
Update: 04.07.2019 07:52
答案 0 :(得分:0)
您可以使用正则表达式删除Update
表达式。
以下是有关此操作的建议:
import re
str = '''
4 July 2019 Friday 07:52
Update: 04.07.2019 07:52
'''
str_changed = re.sub(r'Update:.+', '', str).strip()
print(f'"{str_changed}"')
如果运行此代码,它将打印出:
"4 July 2019 Friday 07:52"
答案 1 :(得分:0)
如果我对您的理解正确,那么这可能就是您想要的-没有正则表达式:
publishTime = '''
4 July 2019 Friday 07:52
Update: 04.07.2019 07:52
'''
vars = ['a','b']
vals = publishTime.split(' Update: ')
for var,val in zip(vars,vals):
sval = val.strip()
print(f'{var} = "{sval}"')
输出:
a = "4 July 2019 Friday 07:52"
b = "04.07.2019 07:52"