Scrapy忽略allowed_domains?

时间:2014-12-27 14:13:50

标签: python hyperlink scrapy

Scrapy忽略了我的蜘蛛规则,甚至关注不允许的域名。

self.start_urls = [ 'http://www.domain.de' ]
self.allowed_domains = [ 'domain.de' ]

但是它可以很好地工作并过滤不允许的域,请参阅log:

DEBUG:过滤现场要求www.clubsoundz.fm':http://www.clubsoundz.fm/>

我使用sgmllinkextractor来关注链接,这里是我的"规则":

规则=(         规则(SgmlLinkExtractor(),callback =' get_domain_data',follow = True),     )

有人可以帮忙吗?

1 个答案:

答案 0 :(得分:2)

我认为这正是我遇到的问题:https://github.com/scrapy/scrapy/issues/184 听起来这个问题没有真正的解决方案:(

我想我必须在蜘蛛继续这个过程之前过滤网址