应用错误收集

Scrapy如何过滤抓取的网址？

时间：2012-11-29 07:43:16

标签： scrapy

我想知道Scrapy如何过滤那些已抓取的网址？它是否存储了在crawled_urls_list之类的内容中抓取的所有网址，当它获取新网址时，它会查找列表以检查网址是否存在？

CrawlSpider （/ path / to / scrapy / contrib / spiders / crawl.py）的过滤部分的代码在哪里？

非常感谢！

1 个答案:

答案 0 :(得分：5)

默认情况下，scrapy会保留已查看请求的指纹。此列表保存在python集的内存中，并在JOBDIR变量定义的目录中附加文件调用requests.seen。如果重新启动scrapy，文件将重新加载到python集中。控制它的类在scrapy.dupefilter中如果您需要不同的行为，可以重载此类。

Scrapy如何过滤抓取的网址？
如何存储Scrapy抓取的网址？
如何在Scrapy中忽略已爬网的URL
检索抓取的网址Scrapy
Scrapy - 限制已爬网的URL
Scrapy返回＆＃34;抓取0页＆＃34;
Scrapy无法正常工作（noob级别） - 抓取0个网页抓取0个项目
Scrapy不会从我的网址中删除项目：Crawled（200）/ Referer：None
Scrapy - 爬行网址的顺序
抓取过程少于成功抓取

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？