urllist = ['http://example.com',
'http://example1.com']
i = 0
while i < len(urllist):
source = urllib.urlopen(urllist[i]).read()
regex = '(\d{3})/">(\w+\s-\s\w+)</a>' # e.g. '435', 'Tom-Jerry'
p = re.compile(regex)
db = re.findall(p, source)
db = [tuple(filter(None, t)) for t in db]
hero_id = []
for i in db:
hero_id.append(i[0])
i += 1
print hero_id
db = [tuple(filter(None, t)) for t in db]
db
是这样的元组列表:[('564', 'Tom', 'Jerry'), ('321', 'X-man', 'Hulk')]
这背后的逻辑应该如下:从urllist[0]
开始,搜索正则表达式,收集db
,对于db
中的每个元组,取{{1}来自元组的元素(数字)并将其附加到[0]
列表。完成后,向hero_id
添加1,然后从i
重复下一个网址的整个过程,而没有剩下的网址。
当我运行此代码时,我得到了这个:
urllist
i += 1
TypeError: can only concatenate tuple (not "int") to tuple
在for循环之外,所以这个异常让我感到惊讶。想法?
答案 0 :(得分:2)
“for i in db”循环为i分配一个元组。 i的范围是函数(或模块,如果这是模块范围代码)。
Python 2中唯一具有自己作用域的循环语法是生成器表达式。
答案 1 :(得分:2)
for循环for i in db:
正在更改i
循环中while
的值。在for循环中使用不同的(更具描述性)名称。