如何使用Python迭代网站的页面?

时间:2012-06-14 06:03:52

标签: python web loops

我是软件开发的新手,我不知道如何解决这个问题。我想访问网站的每个页面,并从每个页面获取一些特定的数据。我的问题是,我不知道如何在不知道个人网址的情况下迭代所有现有页面。例如,我想访问其网址以

开头的每个网页
  

“http://stackoverflow.com/questions/”

有没有办法编译列表然后遍历它,或者是否可以在不创建巨大网址列表的情况下执行此操作?

3 个答案:

答案 0 :(得分:4)

尝试Scrapy

它为您处理所有抓取工作,让您专注于处理数据,而不是解压缩数据。而不是复制粘贴教程中已有的代码,我将留给您阅读。

答案 1 :(得分:0)

要从网站获取特定数据,您可以使用一些网络抓取工具,例如scrapy

如果需要的数据是通过javascript生成的,那么您可能需要类似浏览器的工具,例如Selenium WebDriver,并手动实现对链接的抓取。

答案 2 :(得分:-2)

例如,您可以创建一个简单的for循环,如下所示:

def webIterate():
    base_link = "http://stackoverflow.com/questions/"
    for i in xrange(24):
        print "http://stackoverflow.com/questions/%d" % (i)

输出将是:

http://stackoverflow.com/questions/0
http://stackoverflow.com/questions/2
http://stackoverflow.com/questions/3
...
http://stackoverflow.com/questions/23

这只是一个例子。您可以随心所欲地传递大量问题并随身携带