Scrapy - 在未返回其中一个项目字段时处理异常

时间:2015-10-25 16:56:28

标签: python exception-handling web-scraping scrapy

我正在尝试解析Scrapy项目,其中每个项目都有几个字段。由于网站上的信息不完整,有些字段无法正确捕获。如果只能返回其中一个字段,则提取项目的整个操作会中断异常(例如,对于下面的代码我得到“属性:无法拆分”)。解析器然后移动到下一个请求,而不捕获可用的其他字段。

item['prodcode'] = response.xpath('//head/title').re_first(r'.....').split(" ")[1]
#throws: Attribute:None cannot be split . Does not parse other fields.

Scrapy处理此类异常的方式是什么?我想从可用的所有字段中检索信息,而不可用的字段返回空白或N / A.我可以尝试...除了...在每个项目字段上,但这似乎不是最好的解决方案。文档提到了异常处理,但不知怎的,我找不到这种情况的方法。

1 个答案:

答案 0 :(得分:4)

这里最天真的方法是遵循EAFP approach并直接在蜘蛛中处理异常。例如:

try:
    item['prodcode'] = response.xpath('//head/title').re_first(r'.....').split(" ")[1]
except AttributeError:
    item['prodcode'] = 'n/a'

这里更好的选择可以是将项目字段解析逻辑委托给Item Loaders和不同的Input and Output Processors。因此,您的蜘蛛只负责解析HTML并提取所需数据,但所有后处理和美化都将由Item Loader处理。换句话说,在你的蜘蛛中,你只有:

loader = MyItemLoader(response=response)

# ...
loader.add_xpath("prodcode", "//head/title", re=r'.....')
# ...

loader.load_item()

Item Loader会有类似的东西:

def parse_title(title):
    try:
        return title.split(" ")[1]
    except Exception:  # FIXME: handle more specific exceptions
        return 'n/a'

class MyItemLoader(ItemLoader):  
    default_output_processor = TakeFirst()

    prodcode_in = MapCompose(parse_title)