Scrapy LinkExtractor特定网址

时间:2018-03-01 15:26:39

标签: scrapy

我正在抓取一个网站。但是,当前代码重定向我,不会从我想要的URL爬网。

URL: http://www.example.com/book/diff/ 除了/之外,diff可以是任何东西。 要添加,我只想抓取与网址匹配的网址。

这是我目前的代码:

 name = "testing"
allowed_domains = ['example.com']
start_urls = [
    'http://www.example.com/book/',
]

rules = (Rule(LinkExtractor(allow=(r'^http://www.example.com/book/[^/]*/$')),
 callback='parse_page',follow=True),)

1 个答案:

答案 0 :(得分:0)

    rules = (Rule(LinkExtractor(allow=(r'^http://www.example.com/book/')), callback='parse_page',follow=True),)

这应该足够了。