看不到无限循环

时间:2016-08-09 02:07:56

标签: python beautifulsoup web-crawler urllib3

我正在尝试编写一个webcrawler,但我被卡住了,因为我无法在代码中看到无限循环。

class Crawler(object):
    def __init__(self, url, query, dir = os.path.dirname(__file__)):
        self.start_url = url
        self.start_parsed = urllib3.util.parse_url(url)
        self.query = re.compile(query, re.IGNORECASE)
        self.dir = dir
        self.__horizon = set()
        self.log = []

        self.__horizon.add(url)
        self.log.append(url)
        print("initializing crawler....")
        print(locals())

    def start(self, depth= 5, url = '/'):
        print(url, depth)
        self.log.append(url)
        if depth > 0:
            pool = urllib3.PoolManager()
            data = pool.request("GET", self.start_url if url == '/' else url).data.decode('utf-8')

            valid_list = []
            self.add_horizon(parser_soup.get_links(data), valid_list)

            if re.search(self.query, parser_soup.get_text(data)):
                self.output(data)

            for u in valid_list:
                self.start(depth = (depth-1), url = u)

    def output(self, data):
        with open(os.path.join(self.dir, get_top_domain(self.start_parsed.host) + '.' + str(time.time()) + '.html'), 'w+') as f:
            f.write(data)

    def add_horizon(self, url_list, valid_list = []):
        for url in url_list:
            if get_top_domain(url) == get_top_domain(self.start_parsed.host)  \
                    and (not str(url) in self.log or not str(url) in self.__horizon):
                valid_list.append(str(url))

        self.__horizon.update(valid_list)

它永远运行。我应该如何确保消除重复的链接?

2 个答案:

答案 0 :(得分:2)

在抓取工具中添加visited属性。

from collections import defaultdict
class Crawler:
    def __init__(self, url, query, dir = os.path.dirname(__file__)):
        self.visited = defaultdict(bool)
        # Rest of code...

    def start(self, depth= 5, url = '/'):
        if self.visited[url]:
            return True
        self.visited[url] = True
        # Rest of code...

说实话,我也看不到无限循环。如果你发布一些输出会有所帮助。

编辑:请注意,在上面的回答中,我写道使用defaultdict是错误的解决方案。我的意思是说使用列表是错误的解决方案!

编辑2:@Jona Christopher Sahnwald提出了一个比我更有效的观点(见他在OP的问题下的评论)。在类中添加max_visitcurrent_visit属性可能会更有效率(设置为大约1000左右)。从current_visit开始,每次访问网站时,都会增加current_visit。当current_visit大于max_visit时,中止抓取。请注意,不是使用递归来递归访问的网站,而是实现某种堆栈可能更好,这样您就可以暂停/恢复爬网而不是中止。像这样:

from collections import defaultdict

class Crawler:
    def __init__(self, url, query, dir = os.path.dirname(__file__)):
        self.visited = defaultdict(bool)
        self.current_visit = 0
        self.max_visit = 1000
        self.to_visit = []
        # Rest of code...

    def start(self, depth=5, url = '/'):
        self.to_visit.append((url, 1))
        while len(self.to_visit) > 0:
            url, current_depth = self.to_visit.pop()
            if current_depth > depth:
                continue
            elif visited[url]:
                continue
            elif self.current_visited > self.max_visited:
                break

            self.current_visited += 1
            visited[url] = True

            # Code that does something for each page (like download it, etc)

            # Code that finds links on page...

            for link in links_on_page:
                self.to_visit.append((link, current_depth + 1))

这样,您可以在current_visit超过max_visit后暂停抓取,从而允许您批量抓取max_visit

答案 1 :(得分:2)

改编自Giogian的代码:

class Crawler(object):
    def __init__(self, url, query, dir=os.path.dirname(__file__)):
        self.visited = set()
        # Rest of code...

    def start(self, depth=5, url='/'):
        if url in self.visited:
            return True
        self.visited.add(url)

defaultdict是一个字典,如果索引不存在,则使用默认值。然而,这是错误的解决方案。如我的代码所示,一个集合将更具内存效率和优雅。

套装使用O(1)时间 - 与@ Giorgian的答案一样快。

当程序处于无限循环中时,使用Ctrl-C来中断程序。这将打印一个Traceback,显示程序中断时正在执行的命令。这样做几次,你应该知道它发生在哪里。或者,使用调试器并在无限循环中暂停并使用"步骤"运行到下一行执行的功能,以便您可以执行程序的执行。 PyCharm是一个很棒的编辑器,包含一个调试器。它具有良好的自动完成性,并且是全面的。它是免费的,请查看。