Question

嗨，我已经列出了10个CSV网站。所有站点都具有相同的通用格式，包括一个大表。我只想要第7列中的数据。我能够提取html并过滤第7列数据（通过RegEx），但我无法弄清楚如何循环CSV。我想我很接近，但我的剧本不会运行。如果有人能帮我弄明白怎么做，我真的很感激。这就是我所拥有的：

#Python v2.6.2

import csv 
import urllib2
import re

urls = csv.reader(open('list.csv'))
n =0
while n <=10:
    for url in urls:
        response = urllib2.urlopen(url[n])
        html = response.read()
        print re.findall('td7.*?td',html)
        n +=1

Answer 1

当我复制你的例程时，我确实得到了一个空格/制表符错误错误。检查您的标签。您使用循环计数器错误地索引URL字符串。这也会搞砸你。

此外，您并不需要使用计数器来控制循环。这将循环CSV文件中的每个行条目。

#Python v2.6.2

import csv 
import urllib2
import re

urls = csv.reader(open('list.csv'))
for url in urls:
    response = urllib2.urlopen(url[0])
    html = response.read()
    print re.findall('td7.*?td',html)

最后，请确保您的网址已正确形成：

http://www.cnn.com
http://www.fark.com
http://www.cbc.ca

Python Web-Scrape循环通过CSV列表的URL？

1 个答案: