从Python中的字符串中删除子字符串?

时间:2018-04-03 19:27:02

标签: python string numbers web-crawler

我目前面临的问题是我有一个字符串(深层链接),我要提取一个特定的子字符串:

   <deeplink>https://www.jsox.de/tokyo-l200/tokio-skytree-ticket-fuer-einlass-ohne-anstehen-t107728/?partner_id=M1</deeplink>

   <deeplink>https://www.jsox.de/tokyo-l201/ganztaegige-bustour-zum-fuji-ab-tokio-t65554/?partner_id=M1</deeplink>

我希望从上面的字符串中提取以下信息:

t107728
t65554

我怎样才能从上面的第一个字符串中提取例如子串t107728? 我尝试使用split和sub函数,但它没有用完

你能帮助我吗?任何反馈都表示赞赏

2 个答案:

答案 0 :(得分:1)

您可以使用re

import re
s = ['<deeplink>https://www.jsox.de/tokyo-l200/tokio-skytree-ticket-fuer-einlass-ohne-anstehen-t107728/?partner_id=M1</deeplink>', '<deeplink>https://www.jsox.de/tokyo-l201/ganztaegige-bustour-zum-fuji-ab-tokio-t65554/?partner_id=M1</deeplink>']
new_s = [re.findall('[a-zA-Z0-9]+(?=/\?)', i)[0] for i in s]

输出:

['t107728', 't65554']

答案 1 :(得分:1)

您可以使用split功能尝试此功能:

strings = ["<deeplink>https://www.jsox.de/tokyo-l200/tokio-skytree-ticket-fuer-einlass-ohne-anstehen-t107728/?partner_id=M1</deeplink>", "<deeplink>https://www.jsox.de/tokyo-l201/ganztaegige-bustour-zum-fuji-ab-tokio-t65554/?partner_id=M1</deeplink>"]

results = [elem.split("/?")[0].split("-")[-1] for elem in strings]

print(results)

输出:

['t107728', 't65554']