嗨,我已经列出了10个CSV网站。所有站点都具有相同的通用格式,包括一个大表。我只想要第7列中的数据。我能够提取html并过滤第7列数据(通过RegEx),但我无法弄清楚如何循环CSV。我想我很接近,但我的剧本不会运行。如果有人能帮我弄明白怎么做,我真的很感激。这就是我所拥有的:
#Python v2.6.2
import csv
import urllib2
import re
urls = csv.reader(open('list.csv'))
n =0
while n <=10:
for url in urls:
response = urllib2.urlopen(url[n])
html = response.read()
print re.findall('td7.*?td',html)
n +=1
答案 0 :(得分:2)
当我复制你的例程时,我确实得到了一个空格/制表符错误错误。检查您的标签。您使用循环计数器错误地索引URL字符串。这也会搞砸你。
此外,您并不需要使用计数器来控制循环。这将循环CSV文件中的每个行条目。
#Python v2.6.2
import csv
import urllib2
import re
urls = csv.reader(open('list.csv'))
for url in urls:
response = urllib2.urlopen(url[0])
html = response.read()
print re.findall('td7.*?td',html)
最后,请确保您的网址已正确形成:
http://www.cnn.com
http://www.fark.com
http://www.cbc.ca