我正在尝试使用能够扫描其抓取的每个网站的抓取工具
抓取工具从网站example1.com
开始,然后对其进行扫描
如果没有外部链接,需要在当前页面或其他页面上留下本网站的外部链接。
有人可以帮我改变我的代码吗?
实际上,抓取工具停留在第一个域中,抓取大量时间在同一个域中,并且不要跟随外部链接。
name = "scan"
start_urls = [
"http://stackoverflow.com"
]
custom_settings = {
'RETRY_ENABLED': False,
'DEPTH_LIMIT' : 1,
'DEPTH_PRIORITY' : 0,
'LOG_ENABLED' : False,
'CONCURRENT_REQUESTS_PER_DOMAIN' : 1,
'CONCURRENT_REQUESTS' : 5,
#'REACTOR_THREADPOOL_MAXSIZE' : 30,
'COOKIES_ENABLED' : False,
#'DOWNLOAD_TIMEOUT' : 20,
'DOWNLOAD_WARNSIZE' : 0,
'DOWNLOAD_MAXSIZE' : 23554432,
}
rules = (
Rule(LinkExtractor(allow=(),deny=('facebook', 'amazon', 'wordpress')), callback='parse_item', follow=True),
)
def parse_item(self, response):
request = response.request
ext = tldextract.extract(request.url)
domain = ext.registered_domain
if domain not in domain_visited:
domain_visited.append(domain)
print domain
def doScan(self, response):
.....