使用python从XML文件中提取链接

时间:2018-05-16 06:19:12

标签: python regex

我有一个站点地图XML文件,我想运行一个提取所有网址并打印它的脚本。 我试过re.findall(r'(https?:// \ S +)',url)

但是这会打印结束标签,如:" https://www.tutorialspoint.com/python/python_reg_expressions.htm / liv"

我不想打印后缀' / liv'如何使用正则表达式实现这一点?

1 个答案:

答案 0 :(得分:1)

是否所有网址都用引号括起来或用空格包围?如果是这样,您可以执行以下操作:

re.findall(r'(?P<quote>.)(https?://\S+?)(?P=quote)', url)

如果您获得匹配的所有内容的字符串表示形式,而不仅仅是第二个组,则必须使用...[1:-1]修剪它。