仅为图像URL刮取整个网站

时间:2017-03-28 13:54:05

标签: python web-scraping

客户保留我收集网站上的图片列表。数据库是一个巨大的混乱,图像存储在整个地方(一些在S3,一些在本地服务器上)。我需要生成一个图像列表,我们将从S3迁移到我们正在将网站移动到的新托管公司。

我尝试使用REGEXP抓取数据库转储,我想出的图像列表与网站实际使用的不匹配。

我想要做的事情:释放一个python脚本来抓取整个网站的所有图片网址。该网站是WordPress,会不会有很多.jpg?8127等等。我不关心那些,我可以稍后清理输出。

所以,我的目标是:

- 编写跟随网站上每个链接的python脚本,解析图像链接的输出。 - 将结果转储到文本文件中以进行清理和审核

我正在考虑使用https://pypi.python.org/pypi/ImageScraper作为其中的一部分,因为它似乎最有意义。

我怎么能最好地解决这个问题?

1 个答案:

答案 0 :(得分:1)

我认为您需要检查scrapy项目。使用scrapy,您可以编写爬虫并使用管道保存images图像的URL。