Question

我有这个简单的程序从stdin接收文件并仅输出主机（例如：仅返回HOST。

除了我运行cat sample.html | python program.py现在输出 href“= google.com

我希望它删除'href =“部分，并让它只输出google.com，但是当我尝试将其删除时，它变得更糟。想法？

import re
import sys

s = sys.stdin.read()
lines=s.split('\n')

match = re.search(r'href=[\'"]?([^\'" >]+)', s) #here
if match:
    print match.group(0)

谢谢。

Answer 1

这是因为当它应该是保存实际匹配结果的组（1）时引用组（0）。

if match:
   print match.group(1)

re：匹配＆＃39; a href＆＃39;标签

1 个答案: