我正在使用Scarpy中的CrawlSpider类构建一个爬虫程序。我怀疑链接提取器一遍又一遍地循环遍历相同的链接。有没有办法限制链接提取器和拒绝已经被删除的链接?这可以在deny输入中没有正则表达式的情况下完成吗?
My Rules look like this:
{
rules = (
#Rule(SgmlLinkExtractor((allow='profile')), follow=True),
Rule(SgmlLinkExtractor(deny='feedback\.html'),callback='parse_item', follow=True),
)
}
And my parse_item is:
{
def parse_item(self, response):
hxs = HtmlXPathSelector(response)
element = hxs.select('//table[@id="profilehead"]/tr/td/a/@href').extract()
try:
open('urls.txt', 'a').write(element[0])
open('urls.txt', 'a').write('\n')
except IndexError:
# Site doesn't have link to another website
pass
}
答案 0 :(得分:0)
我认为scrapy不会关注已经访问过的链接。但是如果你想限制某些部分没有被遵循,那么你可以尝试这样的事情
restrict_xpaths=('//a[starts-with(@title,"Next ")]')),