Question

我希望从file.csv中的行导入URL，这样漂亮的汤可以解析XML，但我不知道如何使以下情况发生。

url = row in 'file.csv'

soup = BeautifulSoup(urllib2.urlopen('url').read()

letters = soup.select('h1')

print letters

Answer 1

使用built-in csv module：

import csv
import urllib2

with open("input.csv", "rb") as f:
    reader = csv.reader(f)

    for row in reader:
        url = row[0]

        soup = BeautifulSoup(urllib2.urlopen(url))
        letters = soup.select('h1')
        print url, letters

如果您的现有input.csv文件中的每个行的第一个“单元格”中都有一个URL，则此代码将按原样运行，例如：

https://google.com,some_other_data,1
https://stackoverflow.com,some_other_data,1

从csv中的行导入URL以获取beautifulsoup

1 个答案: