如何在scrapy爬行时跳过某些文件类型?

时间:2012-08-27 10:43:13

标签: mime scrapy

我想在使用scrapy进行爬网时跳过某些文件类型链接.exe .zip .pdf,但不希望将Rule与特定网址一起使用。怎么样?

更新

由于在未下载正文时,很难决定是否仅通过Content-Type来关注此链接。我在下载中间件中更改为drop url。谢谢彼得和利奥。

3 个答案:

答案 0 :(得分:11)

如果你去Scrapy根目录中的linkextractor.py,你会看到以下内容:

"""
Common code and definitions used by Link extractors (located in
scrapy.contrib.linkextractor).
"""

# common file extensions that are not followed if they occur in links
IGNORED_EXTENSIONS = [
    # images
    'mng', 'pct', 'bmp', 'gif', 'jpg', 'jpeg', 'png', 'pst', 'psp', 'tif',
    'tiff', 'ai', 'drw', 'dxf', 'eps', 'ps', 'svg',

    # audio
    'mp3', 'wma', 'ogg', 'wav', 'ra', 'aac', 'mid', 'au', 'aiff',

    # video
    '3gp', 'asf', 'asx', 'avi', 'mov', 'mp4', 'mpg', 'qt', 'rm', 'swf', 'wmv',
    'm4a',

    # other
    'css', 'pdf', 'doc', 'exe', 'bin', 'rss', 'zip', 'rar',
]

但是,由于这适用于linkextractor(并且您不想使用规则),我不确定这会解决您的问题(我刚刚意识到您指定您不想使用规则。我以为您曾询问如何更改文件扩展名限制,而无需直接在规则中指定。)

好消息是,您还可以构建自己的下载中间件,并将任何/所有请求丢弃到具有不良扩展名的网址。见Downloader Middlerware

您可以通过访问request对象的url属性获取请求的网址,如下所示:request.url

基本上,在字符串的末尾搜索“.exe”或您要删除的任何扩展名,如果它包含所述扩展名,则返回IgnoreRequest异常,并立即删除该请求。

<强>更新

为了在下载之前处理请求,您需要确保在自定义下载器中间件中定义“process_request”方法。

根据Scrapy文档

process_request

  

为每个通过下载的请求调用此方法   中间件。

     

process_request()应该返回None,Response对象或者   请求对象。

     

如果它返回None,Scrapy将继续处理此请求,   执行所有其他中间件,直到最后,适当的   下载程序处理程序称为执行的请求(及其响应   下载)。

     

如果它返回一个Response对象,Scrapy将不会打扰任何其他对象   请求或异常中间件,或相应的下载   功能;它将返回该响应。响应中间件总是如此   呼吁每一个回应。

     

如果它返回一个Request对象,则返回的请求将是   重新安排(在调度程序中)将来要下载。该   始终会调用原始请求的回调。如果是新的   请求有一个回调,它将与响应一起调用   下载后,该回调的输出将传递给   原始回调。如果新请求没有回调,则   下载的响应将被传递给原始请求   回调。

     

如果它返回IgnoreRequest异常,则整个请求将是   完全掉线,回调从未调用。

基本上,只需创建一个下载器类,添加一个方法类process_request,它将请求对象和蜘蛛对象作为参数。如果网址包含不需要的扩展名,则返回IgnoreRequest异常。

这应该都是在下载页面之前发生的。但是,如果您想要处理响应标头,则必须向网页发出请求。

您可以在下载程序中始终实现process_request和process_response方法,其想法是立即删除明显的扩展,并且如果由于某种原因url不包含文件扩展名,则请求将是进程并且在process_request方法中捕获(因为你可以在头文件中验证)?

答案 1 :(得分:3)

.zip和.pdf是ignored by scrapy by default

作为一般规则,您可以将规则配置为仅包含与正则表达式匹配的网址(在本例中为.htm *):

rules = (Rule(SgmlLinkExtractor(allow=('\.htm')), callback='parse_page', follow=True, ), )

或排除与正则表达式相匹配的那些:

rules = (Rule(SgmlLinkExtractor(allow=('.*'), deny=('\.pdf', '\.zip')), callback='parse_page', follow=True, ), )

阅读the documentation了解详情。

答案 2 :(得分:1)

我构建了这个中间件,以排除任何不在正则表达式白名单中的响应类型:

from scrapy.http.response.html import HtmlResponse
from scrapy.exceptions import IgnoreRequest
from scrapy import log
import re

class FilterResponses(object):
    """Limit the HTTP response types that Scrapy dowloads."""

    @staticmethod
    def is_valid_response(type_whitelist, content_type_header):
        for type_regex in type_whitelist:
            if re.search(type_regex, content_type_header):
                return True
        return False


    def process_response(self, request, response, spider):
        """
        Only allow HTTP response types that that match the given list of 
        filtering regexs
        """
        # to specify on a per-spider basis
        # type_whitelist = getattr(spider, "response_type_whitelist", None)
        type_whitelist = (r'text', )
        content_type_header = response.headers.get('content-type', None)
        if not content_type_header or not type_whitelist:
            return response

        if self.is_valid_response(type_whitelist, content_type_header):
            return response
        else:
            msg = "Ignoring request {}, content-type was not in whitelist".format(response.url)
            log.msg(msg, level=log.INFO)
            raise IgnoreRequest()

要使用它,请将其添加到settings.py:

DOWNLOADER_MIDDLEWARES = {
    '[project_name].middlewares.FilterResponses': 999,
}