Python Web-Scrape循环通过CSV列表的URL?

时间:2009-09-18 00:48:01

标签: python list csv loops

嗨,我已经列出了10个CSV网站。所有站点都具有相同的通用格式,包括一个大表。我只想要第7列中的数据。我能够提取html并过滤第7列数据(通过RegEx),但我无法弄清楚如何循环CSV。我想我很接近,但我的剧本不会运行。如果有人能帮我弄明白怎么做,我真的很感激。这就是我所拥有的:

#Python v2.6.2

import csv 
import urllib2
import re

urls = csv.reader(open('list.csv'))
n =0
while n <=10:
    for url in urls:
        response = urllib2.urlopen(url[n])
        html = response.read()
        print re.findall('td7.*?td',html)
        n +=1

1 个答案:

答案 0 :(得分:2)

当我复制你的例程时,我确实得到了一个空格/制表符错误错误。检查您的标签。您使用循环计数器错误地索引URL字符串。这也会搞砸你。

此外,您并不需要使用计数器来控制循环。这将循环CSV文件中的每个行条目。

#Python v2.6.2

import csv 
import urllib2
import re

urls = csv.reader(open('list.csv'))
for url in urls:
    response = urllib2.urlopen(url[0])
    html = response.read()
    print re.findall('td7.*?td',html)

最后,请确保您的网址已正确形成:

http://www.cnn.com
http://www.fark.com
http://www.cbc.ca