Question

我有一个站点地图XML文件，我想运行一个提取所有网址并打印它的脚本。我试过re.findall（r＆＃39;（https？：// \ S +）＆＃39;，url）

我不想打印后缀＆＃39; / liv＆＃39;如何使用正则表达式实现这一点？

Answer 1

是否所有网址都用引号括起来或用空格包围？如果是这样，您可以执行以下操作：

re.findall(r'(?P<quote>.)(https?://\S+?)(?P=quote)', url)

如果您获得匹配的所有内容的字符串表示形式，而不仅仅是第二个组，则必须使用...[1:-1]修剪它。