让蜘蛛只下载特定页面

时间:2014-03-08 17:14:00

标签: web-crawler scrapy

需要有人的帮助有scrapy&amp ;;蟒蛇。如何配置spider只下载包含一些单词的页面(在页面正文中)?

1 个答案:

答案 0 :(得分:0)

Scrapy提供了一种使用Item Pipeline过滤内容的方法,您可以编写自定义管道并删除所有没有您要查找的单词的内容。你可以在这里看到一个例子。