循环遍历Web上的目录并通过Python显示其内容(文件和其他目录)

时间:2010-05-25 19:10:22

标签: python file loops directory urllib

Process a set of files from a source directory to a destination directory in Python一样,我想知道是否有可能创建一个函数,当给定一个web目录时,它将列出所述目录中的文件。有点像...

files[]

for file in urllib.listdir(dir):
    if file.isdir:
        # handle this as directory
    else:
        # handle as file

我认为我需要使用urllib库,但似乎没有一种简单的方法可以做到这一点,至少我已经看过了。

2 个答案:

答案 0 :(得分:2)

什么是网络目录?

网页上有链接。具有链接的页面可以或可以不是由web服务器基于目录的内容生成的。

找到自动生成链接的示例here,可能是Web服务器中的mod_dir配置,Apache的结果。

像wget和curl这样的工具是一个页面并下载该页面上的所有链接,可能是递归的。我认为这是你能做到的最好的。我觉得有关python + curl的问题在SO中很多。

答案 1 :(得分:1)

你可能会把这个概念搞糊涂了。目录是文件系统概念。 URL没有目录的概念。它看起来类似于文件系统的路径名,通常映射到目录。但是没有要求它由文件系统支持。

例如,Process a set of files from a source directory to a destination directory in Python可能会映射到目录

/ htdocs中/问题/ 2593399 /

但更有可能的是,它是从数据库查询生成的,不会映射到文件系统中的任何内容。