python scrapy linkextractor否认正则表达式

时间:2013-09-13 06:44:46

标签: python regex scrapy regex-negation

我正在尝试构建我的电子商务网站的站点地图,其中包含指向我所有个人产品的链接。我正在使用python来提取我的网站的产品链接

我的规则是:

extractor = SgmlLinkExtractor(deny=('\/(?!product)\/'))
rules = (
    Rule(extractor,callback='parse_links',follow=True),
)

应该给我所有包含“产品”的链接(这些是我的产品网址)

问题:它没有从我的基本网址中提取任何链接。你能告诉我我需要使用哪种正则表达式吗?

注意:如果我使用正则表达式('/ product /'),它会为我提供网站上的所有链接,无论其中是否包含文本“产品”。

0 个答案:

没有答案