从csv中的行导入URL以获取beautifulsoup

时间:2016-08-25 23:58:05

标签: python beautifulsoup screen-scraping

我希望从file.csv中的行导入URL,这样漂亮的汤可以解析XML,但我不知道如何使以下情况发生。

url = row in 'file.csv'

soup = BeautifulSoup(urllib2.urlopen('url').read()

letters = soup.select('h1')

print letters

1 个答案:

答案 0 :(得分:1)

使用built-in csv module

import csv
import urllib2

with open("input.csv", "rb") as f:
    reader = csv.reader(f)

    for row in reader:
        url = row[0]

        soup = BeautifulSoup(urllib2.urlopen(url))
        letters = soup.select('h1')
        print url, letters

如果您的现有input.csv文件中的每个行的第一个“单元格”中都有一个URL,则此代码将按原样运行,例如:

https://google.com,some_other_data,1
https://stackoverflow.com,some_other_data,1