应用错误收集

我如何将Scrapy与Mysql结合使用？

时间：2012-04-10 12:41:46

标签： python django scrapy

我正在尝试创建一个网络抓取工具，在给定一些起始网址的情况下，提取所有元素并跟随它们以便在内部和中提取文本。我正在运行一个Django应用程序，给定一个查询字符串，返回以前存储在Mysql数据库中的所有项目。在我看来，最好的选择是使用Scrapy，给他一些起始网址，只要提取页面中的所有网址，他就可以找到其他网页，然后，他会跟随他们提取这些网页的内容。 / p>

是否可以将先前提取的数据插入到Mysql中 db（因为我在scrapy.org上没有找到任何关于此的信息）？
是否有内置功能来决定扫描的“深度”？

1 个答案:

答案 0 :(得分：1)

我只是阅读所有scrapy文档，可能有更好的方法来做到这一点，但在项目管道中我刚刚保存了数据。对每个项目进行处理，检查它是否已经在你的mysql中并保存，如果不是！ http://doc.scrapy.org/en/latest/topics/item-pipeline.html

阅读“深度”：使用DepthMiddleware。您可以从request.meta['depth']等请求对象中读取它。