需要从包含多个HTML的CSV中提取所有链接 - 来自每个HTML的所有链接

时间:2018-02-13 11:40:31

标签: python hyperlink extract

我有一个包含HTML字符串的CSV。

我需要从该CSV

中的每个HTML中提取所有链接

1 个答案:

答案 0 :(得分:0)

好的,我认为这会做你想要的。

import csv 
import urllib2
import re

urls = csv.reader(open('C:\\your_path_here\\download_data.csv'))
for url in urls:
    response = urllib2.urlopen(url[0])
    html = response.read()
    print re.findall('msApplication-PackageFamilyName',html)
##################
In the CSV file:
http://www.cnn.com
http://www.yahoo.com
http://www.cbc.ca