Question

我想使用scraperwiki和python构建一个刮刀，它将从不同的网站上刮掉大量的信息。我想知道是否可以指向单个URL，然后从该站点内的每个链接中删除数据。

例如：网站将包含有关不同项目的信息，每个项目都在其各自的链接中。我不需要这些链接的列表，但需要包含其中的实际数据。

刮刀将在每个链接上寻找相同的属性。

有谁知道我是怎么做的？

谢谢！

Answer 1

使用urllib2查看BeautifulSoup。

一个（非常）粗略的示例链接刮刀看起来像这样：

from bs4 import BeautifulSoup
import urllib2

c = urllib2.urlopen(url)
contents = c.read()
soup = BeautifulSoup(contents)
links = soup.find_all(a):

然后只需编写一个for循环就可以多次执行，然后就可以了！