Question

我想在bloomberg网站上抓取与迪士尼相关的网页。网址跟随模式为

        "http://bloomberg.com/news/2013-07-08/disney-welcometohomepageofdisney"

所以，我在下面写了规则

          rules = [
    Rule(SgmlLinkExtractor(allow=('/news/*/disney*',)), follow=True),
          ]

但上述规则不能正常工作，我得到的抓取页面输出与迪士尼无关。请帮助修复此规则。

Answer 1

/news/*匹配/news后跟任意数量的/。

正确的正则表达式是：

/news/.*/disney

Answer 2

您可能需要以下正则表达式：

 /news/[^/]+/disney.*

转发的

看起来像

\/news\/[^\/]+\/disney.*

这样你会找到下一个/但不是任何东西。