抓取图片,整个网页并缓存它们

时间:2010-06-16 10:14:56

标签: python

我正在开始一个项目,并想知道图像中的角色与图像所在的整个网页之间的关系。

我想抓取一些图片及其网页。我需要将抓取结果保存在本地磁盘中以供进一步分析。我想知道这个问题是否有任何开源?

2 个答案:

答案 0 :(得分:1)

这是一个开源抓取工具列表 http://www.google.co.uk/#hl=en&source=hp&q=open+source+web+crawler&aq=f&aqi=g9g-m1&aql=&oq=&gs_rfai=&fp=77130048d7e0701a

列表顶部是Java爬虫,而维基百科文章也有更多

答案 1 :(得分:0)

您可以使用crawler4j来实现此目的。它是一个简单的Java爬虫,可以在几分钟内配置,您也可以使用它来抓取图像。您还可以在源代码中找到ImageCrawler示例。