我正在尝试创建一个网络抓取工具,在给定一些起始网址的情况下,提取所有元素并跟随它们以便在内部和中提取文本。 我正在运行一个Django应用程序,给定一个查询字符串,返回以前存储在Mysql数据库中的所有项目。 在我看来,最好的选择是使用Scrapy,给他一些起始网址,只要提取页面中的所有网址,他就可以找到其他网页,然后,他会跟随他们提取这些网页的内容。 / p>
答案 0 :(得分:1)
我只是阅读所有scrapy文档,可能有更好的方法来做到这一点,但在项目管道中我刚刚保存了数据。对每个项目进行处理,检查它是否已经在你的mysql中并保存,如果不是! http://doc.scrapy.org/en/latest/topics/item-pipeline.html
阅读“深度”:使用DepthMiddleware。您可以从request.meta['depth']
等请求对象中读取它。