永远不会在网站映射抓取工具中结束循环

时间:2016-01-19 13:20:35

标签: python web-crawler

我正在开发我的第一个python项目。我想制作一个访问网站的抓取工具来提取其所有链接(深度为2)。它应该将链接存储在两个列表中,这两个列表组成一个一对一的寄存器,将源链接与它们包含的相应目标链接相关联。然后它应该创建一个带有两列(目标和源)的csv文件,这样我就可以用gephi打开它来创建一个显示该站点地形结构的图形。

代码在代码执行部分的for循环中分解,它只是永远不会停止提取链接...(我已经尝试过一个相当小的博客,它永远不会结束)。问题是什么?我该如何解决?

要考虑的几点: - 我是编程和python的新手,所以我意识到我的代码必须非常简单。此外,由于我一直在寻找构建代码和解决我的问题的方法,它有点不完整,抱歉。谢谢你的帮助!

myurl = raw_input("Introduce URL to crawl => ")
Dominios = myurl.split('.')
Dominio = Dominios[1]

#Variables Block 1
Target = []
Source = []
Estructura = [Target, Source]
links = []

#Variables Block 2
csv_columns = ['Target', 'Source']
csv_data_list = Estructura
currentPath = os.getcwd()
csv_file = "crawleo_%s.csv" % Dominio


# Block 1 => Extract links from a page
def page_crawl(seed):
    try:
        for link in re.findall('''href=["'](.[^"']+)["']''', urllib.urlopen(seed).read(), re.I):
            Source.append(seed)
            Target.append(link)
            links.append(link)
    except IOError:
        pass

# Block 2 => Write csv file
def WriteListToCSV(csv_file, csv_columns, csv_data_list):
try:
        with open(csv_file, 'wb') as csvfile:
            writer = csv.writer(csvfile, dialect='excel', quoting=csv.QUOTE_NONNUMERIC)
            writer.writerow(csv_columns)
            writer.writerows(izip(Target, Source))
    except IOError as (errno, strerror):
            print("I/O error({0}): {1}".format(errno, strerror))
    return

# Block 3 => Code execution
page_crawl(myurl)
seed_links = (links)

for sublink in seed_links:        # Problem is with this loop
    page_crawl(sublink)
    seed_sublinks = (links)
## print Estructura               # Line just to check if code was working

#for thirdlinks in seed_sublinks: # Commented out until prior problems are solved
#   page_crawl(thirdlinks)

WriteListToCSV(csv_file, csv_columns, csv_data_list)

2 个答案:

答案 0 :(得分:1)

seed_linkslinks指向同一个列表。因此,当您在links函数中向page_crawl添加元素时,您还会扩展for循环遍历的列表。您需要做的是clone the list创建seed_links

这是因为Python通过引用传递对象。也就是说,多个变量可以指向不同名称下的同一个对象!

如果您想亲眼看到这一点,请在for循环中尝试print sublink。您会注意到打印的链接比您最初输入的链接多。您可能还会注意到您正在尝试遍历整个网络: - )

答案 1 :(得分:1)

我没有立即看到有什么问题。但是有几个评论:

  1. 你使用全局变量,这是不好的做法。您最好使用由返回传回的局部变量。
  2. 第二级链接是否可能返回第一级?这样你就可以在数据中循环。您需要为此做出规定以防止循环。所以你需要调查返回的内容。
  3. 我会以递归的方式实现这个(使用前面的规定),因为这会使代码更简单,尽管更抽象。