Python Web Scraper(URL-Sub_URL输出)

时间:2014-06-22 06:36:13

标签: python tree output depth scraper

过去几天我一直试图弄清楚如何在没有大量代码的情况下做到这一点,我找不到任何内容,google,Stack Overflow等等。

我正在构建一个非常先进的Web scraper,我希望输出采用树型布局,例如:

for aurl in aurls:
    print aurl
    burls = urlScraper(curl, scrape, savePgs)
    for burl in burls:
        print burl
        curls = urlScraper(burl, scrape, savePgs)
        (This would keep repeating A Lot.)

计划的输出将是这样的:

link.example.com/
    link.example.com/
        link.example.com/
           link.example.com/
           link.example.com/
           link.example.com/
               link.example.com/
               link.example.com/
           link.example.com/
           link.example.com/
               link.example.com/
               link.example.com/
               link.example.com/
    link.example.com/
link.example.com/
    link.example.com/
        link.example.com/
        link.example.com/
    link.example.com/

我需要这个,直到刮刀到达树的末端。我觉得我非常想到这一点,这将是一个类似于循环的东西。我已经构建了web抓取API来返回当前正在抓取的url深度,url以及其他无关紧要的因素。

我已经创建了一个小函数来打印脚本的深度:

def depthIndent(depth):
    depthLevel = ""
    if depth == 1:
        depthLevel = depthLevel + ">"
        return str(depthLevel)
    else:
        for i in range(0,depth):
            depthLevel = depthLevel + "    "
    return str(depthLevel) + "-"

我只需要能够运行for循环,这样它就不会结束,直到它到达树的末端! 任何帮助都非常感激,示例代码会很好,但简短的探索也会很好,整天都在处理一个错误很烦人!

综述: 我需要在给定深度显示文本,我无法检测深度。我需要打印给定的输出,直到树的末尾。

谢谢

0 个答案:

没有答案