Question

我有一个包含HTML字符串的CSV。

我需要从该CSV

中的每个HTML中提取所有链接

Answer 1

好的，我认为这会做你想要的。

import csv 
import urllib2
import re

urls = csv.reader(open('C:\\your_path_here\\download_data.csv'))
for url in urls:
    response = urllib2.urlopen(url[0])
    html = response.read()
    print re.findall('msApplication-PackageFamilyName',html)

##################

In the CSV file:
http://www.cnn.com
http://www.yahoo.com
http://www.cbc.ca

需要从包含多个HTML的CSV中提取所有链接 - 来自每个HTML的所有链接

1 个答案: