我如何将Scrapy与Mysql结合使用?

时间:2012-04-10 12:41:46

标签: python django scrapy

我正在尝试创建一个网络抓取工具,在给定一些起始网址的情况下,提取所有元素并跟随它们以便在内部和中提取文本。 我正在运行一个Django应用程序,给定一个查询字符串,返回以前存储在Mysql数据库中的所有项目。 在我看来,最好的选择是使用Scrapy,给他一些起始网址,只要提取页面中的所有网址,他就可以找到其他网页,然后,他会跟随他们提取这些网页的内容。 / p>

  1. 是否可以将先前提取的数据插入到Mysql中 db(因为我在scrapy.org上没有找到任何关于此的信息)?
  2. 是否有内置功能来决定扫描的“深度”?

1 个答案:

答案 0 :(得分:1)

我只是阅读所有scrapy文档,可能有更好的方法来做到这一点,但在项目管道中我刚刚保存了数据。对每个项目进行处理,检查它是否已经在你的mysql中并保存,如果不是! http://doc.scrapy.org/en/latest/topics/item-pipeline.html

阅读“深度”:使用DepthMiddleware。您可以从request.meta['depth']等请求对象中读取它。