f=open("galcode.txt")
for element in f:
galcode_scan = re.search(ur'http://i\.imgur\.com/\w{5,8}', element)
if galcode_scan:
print galcode_scan.groups()
f.close()
此实例中的Galcode.txt是imgur上的画廊的html。我正在尝试获取一个列表,其中包含发布到imgur的库的所有链接。如果我在输入图库名称并收到galcode之后运行它,我得到的大约是15()。如何获取链接列表?
由于
答案 0 :(得分:4)
您没有任何捕获组,因此.groups()
返回一个空元组。请改为使用.group()
或用括号括起您的正则表达式(ur'(http://i\.imgur\.com/\w{5,8})'
)。
尽管如此,我强烈建议使用BeautifulSoup,cssselect或任何其他HTML解析库。
答案 1 :(得分:2)
最简单的方法是使用HTML解析器,例如Beaufitul Soup。它适用于Python 2.7和3。