Question

f=open("galcode.txt")
for element in f:
 galcode_scan = re.search(ur'http://i\.imgur\.com/\w{5,8}', element)
 if galcode_scan:
    print galcode_scan.groups()
f.close()

此实例中的Galcode.txt是imgur上的画廊的html。我正在尝试获取一个列表，其中包含发布到imgur的库的所有链接。如果我在输入图库名称并收到galcode之后运行它，我得到的大约是15（）。如何获取链接列表？

由于

Answer 1

您没有任何捕获组，因此.groups()返回一个空元组。请改为使用.group()或用括号括起您的正则表达式（ur'(http://i\.imgur\.com/\w{5,8})'）。

尽管如此，我强烈建议使用BeautifulSoup，cssselect或任何其他HTML解析库。

Answer 2

最简单的方法是使用HTML解析器，例如Beaufitul Soup。它适用于Python 2.7和3。

re.search返回空元组

2 个答案: