我有这个简单的程序从stdin接收文件并仅输出主机(例如:仅返回HOST。
除了我运行cat sample.html | python program.py现在输出 href“= google.com
我希望它删除'href =“部分,并让它只输出google.com,但是当我尝试将其删除时,它变得更糟。想法?
import re
import sys
s = sys.stdin.read()
lines=s.split('\n')
match = re.search(r'href=[\'"]?([^\'" >]+)', s) #here
if match:
print match.group(0)
谢谢。
答案 0 :(得分:2)
这是因为当它应该是保存实际匹配结果的组(1)时引用组(0)。
if match:
print match.group(1)