re.search返回空元组

时间:2014-12-17 23:36:41

标签: python regex imgur capture-group

f=open("galcode.txt")
for element in f:
 galcode_scan = re.search(ur'http://i\.imgur\.com/\w{5,8}', element)
 if galcode_scan:
    print galcode_scan.groups()
f.close()  

此实例中的Galcode.txt是imgur上的画廊的html。我正在尝试获取一个列表,其中包含发布到imgur的库的所有链接。如果我在输入图库名称并收到galcode之后运行它,我得到的大约是15()。如何获取链接列表?

由于

2 个答案:

答案 0 :(得分:4)

您没有任何捕获组,因此.groups()返回一个空元组。请改为使用.group()或用括号括起您的正则表达式(ur'(http://i\.imgur\.com/\w{5,8})')。

尽管如此,我强烈建议使用BeautifulSoup,cssselect或任何其他HTML解析库。

答案 1 :(得分:2)

最简单的方法是使用HTML解析器,例如Beaufitul Soup。它适用于Python 2.7和3。