从站点内的多个链接刮取数据

时间:2013-03-08 00:29:57

标签: python web-scraping scraperwiki

我想使用scraperwiki和python构建一个刮刀,它将从不同的网站上刮掉大量的信息。我想知道是否可以指向单个URL,然后从该站点内的每个链接中删除数据。

例如:网站将包含有关不同项目的信息,每个项目都在其各自的链接中。我不需要这些链接的列表,但需要包含其中的实际数据。

刮刀将在每个链接上寻找相同的属性。

有谁知道我是怎么做的?

谢谢!

1 个答案:

答案 0 :(得分:1)

使用urllib2查看BeautifulSoup。

http://www.crummy.com/software/BeautifulSoup/

一个(非常)粗略的示例链接刮刀看起来像这样:

from bs4 import BeautifulSoup
import urllib2

c = urllib2.urlopen(url)
contents = c.read()
soup = BeautifulSoup(contents)
links = soup.find_all(a):

然后只需编写一个for循环就可以多次执行,然后就可以了!