我有一个站点地图XML文件,我想运行一个提取所有网址并打印它的脚本。 我试过re.findall(r'(https?:// \ S +)',url)
但是这会打印结束标签,如:" https://www.tutorialspoint.com/python/python_reg_expressions.htm / liv"
我不想打印后缀' / liv'如何使用正则表达式实现这一点?
答案 0 :(得分:1)
是否所有网址都用引号括起来或用空格包围?如果是这样,您可以执行以下操作:
re.findall(r'(?P<quote>.)(https?://\S+?)(?P=quote)', url)
如果您获得匹配的所有内容的字符串表示形式,而不仅仅是第二个组,则必须使用...[1:-1]
修剪它。