re:匹配' a href'标签

时间:2014-10-17 01:14:55

标签: python regex html-parsing

我有这个简单的程序从stdin接收文件并仅输出主机(例如:仅返回HOST。

除了我运行cat sample.html | python program.py现在输出 href“= google.com

我希望它删除'href =“部分,并让它只输出google.com,但是当我尝试将其删除时,它变得更糟。想法?

import re
import sys

s = sys.stdin.read()
lines=s.split('\n')

match = re.search(r'href=[\'"]?([^\'" >]+)', s) #here
if match:
    print match.group(0)

谢谢。

1 个答案:

答案 0 :(得分:2)

这是因为当它应该是保存实际匹配结果的组(1)时引用组(0)。

if match:
   print match.group(1)