Question

我正在尝试使用能够扫描其抓取的每个网站的抓取工具抓取工具从网站example1.com开始，然后对其进行扫描如果没有外部链接，需要在当前页面或其他页面上留下本网站的外部链接。

有人可以帮我改变我的代码吗？实际上，抓取工具停留在第一个域中，抓取大量时间在同一个域中，并且不要跟随外部链接。

name = "scan"

start_urls = [
    "http://stackoverflow.com"
] 

custom_settings = {
    'RETRY_ENABLED': False,
    'DEPTH_LIMIT' : 1,
    'DEPTH_PRIORITY' : 0,
    'LOG_ENABLED' : False,
    'CONCURRENT_REQUESTS_PER_DOMAIN' : 1,
    'CONCURRENT_REQUESTS' : 5,
    #'REACTOR_THREADPOOL_MAXSIZE' : 30,
    'COOKIES_ENABLED' : False,
    #'DOWNLOAD_TIMEOUT' : 20,
    'DOWNLOAD_WARNSIZE' : 0,
    'DOWNLOAD_MAXSIZE' : 23554432,
}

rules = (
    Rule(LinkExtractor(allow=(),deny=('facebook', 'amazon', 'wordpress')), callback='parse_item', follow=True),
)

def parse_item(self, response):
    request = response.request
    ext = tldextract.extract(request.url)
    domain = ext.registered_domain

    if domain not in domain_visited:
        domain_visited.append(domain)
        print domain

def doScan(self, response):
    .....

Scapy扫描当前网站并按照外部链接

0 个答案: