我使用python
脚本在文本文件中运行行。
我想在文本文档中搜索img
标记,并将标记作为文本返回。
当我运行正则表达式re.match(line)
时,它返回一个_sre.SRE_MATCH
对象。
如何让它返回一个字符串?
import sys
import string
import re
f = open("sample.txt", 'r' )
l = open('writetest.txt', 'w')
count = 1
for line in f:
line = line.rstrip()
imgtag = re.match(r'<img.*?>',line)
print("yo it's a {}".format(imgtag))
运行时打印:
yo it's a None
yo it's a None
yo it's a None
yo it's a <_sre.SRE_Match object at 0x7fd4ea90e578>
yo it's a None
yo it's a <_sre.SRE_Match object at 0x7fd4ea90e578>
yo it's a None
yo it's a <_sre.SRE_Match object at 0x7fd4ea90e578>
yo it's a <_sre.SRE_Match object at 0x7fd4ea90e5e0>
yo it's a None
yo it's a None
答案 0 :(得分:64)
您应该使用re.MatchObject.group(0)
。像
imtag = re.match(r'<img.*?>', line).group(0)
编辑:
你也可能会做更好的事情,比如
imgtag = re.match(r'<img.*?>',line)
if imtag:
print("yo it's a {}".format(imgtag.group(0)))
消除所有None
s。
答案 1 :(得分:6)
考虑到可能会有多个img
代码,我建议re.findall
:
import re
with open("sample.txt", 'r') as f_in, open('writetest.txt', 'w') as f_out:
for line in f_in:
for img in re.findall('<img[^>]+>', line):
print >> f_out, "yo it's a {}".format(img)
答案 2 :(得分:4)
imgtag.group(0)
或imgtag.group()
。这将整个匹配作为字符串返回。你也没有捕获任何其他东西。
答案 3 :(得分:2)
请注意,re.match(pattern, string, flags=0)
仅返回字符串的开头处的匹配项。如果您想在字符串中找到匹配的任何位置,请改为使用 re.search(pattern, string, flags=0)
(https://docs.python.org/3/library/re.html)。这将扫描字符串并返回第一个匹配对象。然后你可以像人们建议的那样用match_object.group(0)
提取匹配的字符串。