re.findall问题(重复)

时间:2010-12-31 17:40:49

标签: python html regex

我试图获取4chan网站的源代码,并获得指向线程的链接。

我有regexp的问题(不能正常工作)。来源:

import urllib2, re

req = urllib2.Request('http://boards.4chan.org/wg/')
resp = urllib2.urlopen(req)
html = resp.read()

print re.findall("res/[0-9]+", html)
#print re.findall("^res/[0-9]+$", html)

问题在于:

print re.findall("res/[0-9]+", html)

正在给予重复。

我无法使用:

print re.findall("^res/[0-9]+$", html)

我已阅读过python文档,但他们没有帮助。

1 个答案:

答案 0 :(得分:11)

那是因为源中有多个链接副本。

您可以通过将它们放入一组来轻松地使它们成为唯一。

>>> print set(re.findall("res/[0-9]+", html))
set(['res/3833795', 'res/3837945', 'res/3835377', 'res/3837941', 'res/3837942',
'res/3837950', 'res/3100203', 'res/3836997', 'res/3837643', 'res/3835174'])

但是如果你要做比这更复杂的事情,我建议你使用一个可以解析HTML的库。 BeautifulSouplxml