使用带项目加载器的正则表达式

时间:2017-01-25 07:29:26

标签: regex scrapy scrapy-spider

我想在项目加载器中使用正则表达式,但我无法弄清楚如何使用。

通常情况下,它只是如此追加到最后:

response.xpath('*xpath*').re(*expression*)

但是如果项目加载器不起作用,请尝试这样:

Loader.add_xpath('item', '*xpath*').re(*expression*)

还尝试在item.py中使用MapCompose,但也没有使它工作。有人知道如何使用Item加载器使用正则表达式吗?

1 个答案:

答案 0 :(得分:5)

ItemLoader接受带有re关键字参数的正则表达式:

l.add_xpath('item', '*xpath*', re='*expression*')