我想使用scraperwiki和python构建一个刮刀,它将从不同的网站上刮掉大量的信息。我想知道是否可以指向单个URL,然后从该站点内的每个链接中删除数据。
例如:网站将包含有关不同项目的信息,每个项目都在其各自的链接中。我不需要这些链接的列表,但需要包含其中的实际数据。
刮刀将在每个链接上寻找相同的属性。
有谁知道我是怎么做的?
谢谢!
答案 0 :(得分:1)
使用urllib2查看BeautifulSoup。
http://www.crummy.com/software/BeautifulSoup/
一个(非常)粗略的示例链接刮刀看起来像这样:
from bs4 import BeautifulSoup
import urllib2
c = urllib2.urlopen(url)
contents = c.read()
soup = BeautifulSoup(contents)
links = soup.find_all(a):
然后只需编写一个for循环就可以多次执行,然后就可以了!